arXiv논문2026. 06. 15. 11:37

StreamMemBench: 미래 지향적 보조를 위한 에이전트 메모리의 스트리밍 평가

요약

에이전트의 메모리 능력을 평가하기 위해 스트리밍 관찰 데이터로부터 미래의 작업을 보조하는 능력을 측정하는 StreamMemBench를 제안합니다. 기존 벤치마크가 놓쳤던 스트리밍 데이터 기반의 연속적인 작업 수행 능력을 4가지 지표로 진단합니다.

핵심 포인트

스트리밍 관찰을 통한 미래 지향적 보조 능력 평가
증거 회상, 초기 사용, 피드백 통합, 후속 재사용 4개 지표 도입
기존 메모리 시스템의 피드백 기반 후속 행동 전환 한계 지적
EgoLife 1인칭 시점 데이터를 활용한 벤치마크 구축

개인용 에이전트 메모리의 핵심 역할은 저장된 정보와 이전의 상호작용을 미래 지향적인 보조(future-oriented assistance)로 전환하는 것입니다. 일상적인 사용 환경에서 유용한 단서들은 에이전트가 관찰하는 내용과 사용자가 에이전트와 상호작용하는 방식에서 비롯되며, 에이전트는 이를 현재의 요청으로부터 유사한 미래의 작업까지 지속적으로 이어가야 합니다. 기존의 메모리 벤치마크(memory benchmarks)들은 대개 대화 회상(dialogue recall)이나 작업 개선(task improvement)을 개별적으로 테스트하며, 스트리밍 관찰(streaming observations)로부터 이후의 보조로 이어지는 궤적(trajectory)은 대부분 테스트되지 않은 상태로 남겨두고 있습니다. 우리는 EgoLife의 1인칭 시점(egocentric) 스트림으로부터 추출된 각 증거 앵커(evidence anchor)를 중심으로 2단계 작업 시퀀스를 구축하는 스트리밍 벤치마크인 StreamMemBench를 소개합니다. 초기 작업은 증거 사용(evidence use)을 테스트하며, 후속 작업은 피드백과 상호작용 경험이 재사용되는지를 테스트합니다. 네 가지 지표를 통해 증거 회상(evidence recall), 초기 증거 사용(initial evidence use), 피드백 통합(feedback incorporation), 그리고 후속 재사용(follow-up reuse)을 진단합니다. 두 가지 백본(backbones)을 사용하는 8개의 메모리 시스템을 대상으로 실험한 결과, 현재의 시스템들은 증거가 저장되어 있거나 피드백이 로컬(locally)에서 통합되더라도, 관찰된 증거를 사용하거나 피드백을 신뢰할 수 있는 후속 행동으로 전환하는 데 종종 실패하는 것으로 나타났습니다. StreamMemBench는 https://github.com/landian60/StreamMemBench 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

StreamMemBench: 미래 지향적 보조를 위한 에이전트 메모리의 스트리밍 평가

요약

핵심 포인트

댓글