본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 02:44

LongMemEval-V2: 숙련된 동료를 위한 장기 에이전트 메모리 평가

요약

LongMemEval-V2 (LME-V2)는 웹 에이전트가 전문적인 웹 환경에서 숙련된 동료처럼 행동하는 데 필요한 장기 메모리 능력을 평가하기 위해 개발된 새로운 벤치마크입니다. LME-V2는 정적 상태 회상, 동적 상태 추적 등 다섯 가지 핵심 메모리 능력을 다루며, 최대 500개의 트래젝토리와 115M 토큰의 히스토리 트래젝토리를 포함합니다. 연구진은 AgentRunbook-R (효율적인 RAG 기반)과 AgentRunbook-C (코딩 에이전트 호출) 두 가지 메모리 방법 세트를 제안했으며, AgentRunbook-C가 가장 높은 정확도를 보였으나 지연 시간 문제가 있었습니다.

핵심 포인트

  • LME-V2는 기존 벤치마크의 한계를 극복하고 웹 에이전트의 환경별 경험 내재화 능력을 평가하는 새로운 표준을 제시합니다.
  • LME-V2는 정적 상태 회상, 동적 상태 추적 등 다섯 가지 핵심 메모리 능력을 포괄적으로 테스트합니다.
  • 제안된 AgentRunbook-C 방법은 높은 정확도(72.5%)를 달성하여 기존의 RAG 및 코딩 에이전트 기준선을 모두 능가했습니다.
  • AgentRunbook-C는 성능 향상에도 불구하고 높은 지연 시간 비용을 가지므로, 정확도와 지연 시간 간의 최적화가 필요합니다.

장기 메모리는 성공이 인터페이스 어포던스(affordances), 상태 역학(state dynamics), 워크플로우, 반복되는 실패 모드 등을 기억하는 데 달려 있는 전문 웹 환경의 에이전트에게 매우 중요합니다. 하지만 기존의 에이전트 메모리 벤치마크는 주로 사용자 이력(user histories), 짧은 추적(short traces) 또는 다운스트림 작업 성공에 초점을 맞추고 있어, 메모리 시스템이 환경별 경험을 효과적으로 내재화하는지 여부를 직접 평가하는 방법은 아직 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 장기 메모리 시스템이 사용자 정의 환경에서 지식이 풍부한 동료가 되는 데 필요한 경험을 에이전트가 습득할 수 있도록 돕는지 평가하는 벤치마크인 LongMemEval-V2 (LME-V2)를 소개합니다. LME-V2는 웹 에이전트를 위한 다섯 가지 핵심 메모리 능력(정적 상태 회상, 동적 상태 추적, 워크플로우 지식, 환경의 함정(gotchas), 전제 인식)을 다루는 451개의 수동으로 선별된 질문을 포함합니다. 이 질문들은 최대 500개의 트래젝토리와 115M 토큰을 포함하는 히스토리 트래젝토리와 쌍을 이루고 있습니다. 우리는 컨텍스트 수집(context gathering) 공식화를 사용합니다: 메모리 시스템은 히스토리 트래젝토리를 소비하고 다운스트림 질문 답변을 위한 간결한 증거를 반환합니다. 우리는 두 가지 메모리 방법 세트를 제안합니다: 원시 상태 관찰, 이벤트 및 전략 노트를 위한 지식 풀(knowledge pools)을 갖춘 효율적인 RAG 기반 메모리인 AgentRunbook-R과, 트래젝토리를 파일로 저장하고 증강된 샌드박스(augmented sandbox)에서 증거를 수집하기 위해 코딩 에이전트(coding agent)를 호출하는 AgentRunbook-C입니다. 실험 결과에 따르면, AgentRunbook-C가 평균 정확도 72.5%로 최고의 성능을 달성하여, 가장 강력한 RAG 기준선(48.5%)과 기성품 코딩 에이전트 기준선(69.3%)을 능가했습니다. 강력한 성능 향상에도 불구하고, 코딩 에이전트 기반 방법은 높은 지연 시간 비용을 가집니다. AgentRunbook-C가 정확도-지연 시간 파레토 전선(Pareto frontier)을 발전시키지만, 개선할 여지가 상당합니다. 종합적으로, 이러한 결과들은 LME-V2를 환경 경험을 위한 장기 메모리 시스템 개발의 도전적인 테스트베드로 확립합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0