Momento: 멀티 세션 에이전트 대화를 통한 지속적 메모리 및 추론 평가
요약
기존 단일 세션 중심 벤치마크의 한계를 극복하기 위해 멀티 세션 환경에서의 지속적 메모리와 추론을 평가하는 Momento를 제안합니다. 실험 결과, 현재 에이전트들은 과거 정보를 현재 컨텍스트의 신뢰할 수 있는 지표로 활용하는 데 어려움을 겪고 있습니다.
핵심 포인트
- 멀티 세션 환경을 위한 새로운 벤치마크 Momento 소개
- 시간적 의존성 및 진화하는 사용자 목표 해결 능력 평가
- 에이전트의 사용자 상태 추정 오류 및 장기 상호작용 격차 확인
에이전트 AI (Agentic AI)의 최근 발전은 도구 사용 (Tool use), 추론 (Reasoning), 그리고 다단계 계획 (Multi-step planning)을 통해 에이전트가 복잡한 과업을 완료할 수 있게 했습니다. 하지만 기존의 벤치마크 (Benchmarks)들은 에이전트를 단일 세션 (Single session) 내에서만 평가하며, 에이전트가 개인화된 사용자 목표를 달성하기 위해 통합해야 하는 과거의 행동, 명시된 선호도, 그리고 이전의 결정들을 간과하고 있습니다. 우리는 멀티 세션 서비스 환경에서 지속적인 에이전트 과업 완료를 위한 벤치마크인 Momento를 소개합니다. 이는 에이전트가 세션 전반에 걸쳐 시간적 의존성 (Temporal dependencies)과 진화하는 사용자 목표를 해결하는 동시에, 결과가 뒤따르는 도구 매개 행동 (Tool-mediated actions)을 수행할 것을 요구합니다. 실험 결과에 따르면, 현재의 에이전트들은 주로 사용자 상태 (User state)를 잘못 추정함으로써 실패하는 것으로 나타났습니다. 즉, 이전 세션의 이력을 재검증이 필요한 오래된 정보 (Stale information)로 취급하기보다 현재 컨텍스트 (Current context)를 위한 신뢰할 수 있는 대리 지표 (Proxy)로 취급하고 있으며, 이는 현재의 에이전트 능력과 현실적인 장기적 인간-에이전트 상호작용 (Long-horizon human-agent interaction) 사이의 상당한 격차를 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기