LongMemEval-V2: 숙련된 동료를 위한 장기 에이전트 메모리 평가

장기 메모리는 성공이 인터페이스 어포던스(affordances), 상태 역학(state dynamics), 워크플로우, 반복되는 실패 모드 등을 기억하는 데 달려 있는 전문 웹 환경의 에이전트에게 매우 중요합니다. 하지만 기존의 에이전트 메모리 벤치마크는 주로 사용자 이력(user histories), 짧은 추적(short traces) 또는 다운스트림 작업 성공에 초점을 맞추고 있어, 메모리 시스템이 환경별 경험을 효과적으로 내재화하는지 여부를 직접 평가하는 방법은 아직 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 장기 메모리 시스템이 사용자 정의 환경에서 지식이 풍부한 동료가 되는 데 필요한 경험을 에이전트가 습득할 수 있도록 돕는지 평가하는 벤치마크인 LongMemEval-V2 (LME-V2)를 소개합니다. LME-V2는 웹 에이전트를 위한 다섯 가지 핵심 메모리 능력(정적 상태 회상, 동적 상태 추적, 워크플로우 지식, 환경의 함정(gotchas), 전제 인식)을 다루는 451개의 수동으로 선별된 질문을 포함합니다. 이 질문들은 최대 500개의 트래젝토리와 115M 토큰을 포함하는 히스토리 트래젝토리와 쌍을 이루고 있습니다. 우리는 컨텍스트 수집(context gathering) 공식화를 사용합니다: 메모리 시스템은 히스토리 트래젝토리를 소비하고 다운스트림 질문 답변을 위한 간결한 증거를 반환합니다. 우리는 두 가지 메모리 방법 세트를 제안합니다: 원시 상태 관찰, 이벤트 및 전략 노트를 위한 지식 풀(knowledge pools)을 갖춘 효율적인 RAG 기반 메모리인 AgentRunbook-R과, 트래젝토리를 파일로 저장하고 증강된 샌드박스(augmented sandbox)에서 증거를 수집하기 위해 코딩 에이전트(coding agent)를 호출하는 AgentRunbook-C입니다. 실험 결과에 따르면, AgentRunbook-C가 평균 정확도 72.5%로 최고의 성능을 달성하여, 가장 강력한 RAG 기준선(48.5%)과 기성품 코딩 에이전트 기준선(69.3%)을 능가했습니다. 강력한 성능 향상에도 불구하고, 코딩 에이전트 기반 방법은 높은 지연 시간 비용을 가집니다. AgentRunbook-C가 정확도-지연 시간 파레토 전선(Pareto frontier)을 발전시키지만, 개선할 여지가 상당합니다. 종합적으로, 이러한 결과들은 LME-V2를 환경 경험을 위한 장기 메모리 시스템 개발의 도전적인 테스트베드로 확립합니다.

Insights

LongMemEval-V2: 숙련된 동료를 위한 장기 에이전트 메모리 평가

요약

핵심 포인트

댓글

요청에서 도구 하나를 제거해 보세요: 어떤 GPT-5 버전은 76%를 캐싱에 유지하지만, 다른 버전은 아무것도 유지하지 못합니다

나스닥, Tesla와 Alphabet 실적 발표를 앞두고 하락 마감

Justif - 웹을 위한 Knuth-Plass 양쪽 정렬과 마이크로타이포그래피

프로그래밍 잡기 2026년 7월 24일

요청에서 도구 하나를 제거해 보세요: 어떤 GPT-5 버전은 76%를 캐싱에 유지하지만, 다른 버전은 아무것도 유지하지 못합니다

나스닥, Tesla와 Alphabet 실적 발표를 앞두고 하락 마감

Justif - 웹을 위한 Knuth-Plass 양쪽 정렬과 마이크로타이포그래피

프로그래밍 잡기 2026년 7월 24일