MEME: 다중 개체 및 진화하는 메모리 평가
요약
LLM 기반 에이전트가 여러 세션에 걸쳐 정보를 저장, 업데이트, 추론해야 하는 환경을 반영하여, MEME는 다중 개체 및 진화하는 메모리 공간을 포괄하는 여섯 가지 작업을 정의했습니다. 이 평가 결과, 모든 시스템은 기본 구성에서의 의존성 추론(Cascade 및 Absence)에서 성능 저하를 보였습니다. 이는 단순한 검색 성능만으로는 부족하며, 최적의 프롬프트 엔지니어링이나 강력한 LLM조차도 해결하기 어려운 근본적인 문제입니다.
핵심 포인트
- MEME는 다중 개체 및 진화하는 메모리 공간을 평가하는 6가지 작업을 정의하여 기존 벤치마크의 한계를 극복했습니다.
- 모든 테스트 시스템은 기본 구성에서의 의존성 추론(Cascade, Absence)에서 심각한 성능 저하를 보였습니다.
- 프롬프트 최적화나 강력한 LLM조차도 메모리 격차를 메우지 못했으며, 이는 근본적인 아키텍처 문제임을 시사합니다.
- 가장 나은 성능을 보인 시스템은 내부 LLM(Claude Opus 4.7)과 파일 기반 에이전트의 결합이었으나, 비용 효율성 측면에서 실용적이지 않습니다.
LLM 기반 에이전트는 여러 세션에 걸쳐 정보를 저장하고, 업데이트하며, 추론해야 하는 영속적인 환경에서 점점 더 많이 작동합니다. 이전 벤치마크는 단일 개체 업데이트만을 평가했지만, MEME는 다중 개체 및 진화하는 축이 정의하는 전체 공간을 아우르는 여섯 가지 작업을 정의하며, 이 중 세 가지(Cascade 및 Absence (의존성 추론), Deletion (제거 후 상태))는 이전 작업에서 점수화되지 않았습니다. 100개의 통제된 에피소드를 통해 세 가지 메모리 패러다임을 포괄하는 여섯 개의 메모리 시스템을 평가한 결과, 모든 시스템이 기본 구성(Cascade: 평균 정확도 3%, Absence: 1%) 하의 의존성 추론에서 무너지는 것을 발견했습니다. 이는 적절한 정적 검색 성능에도 불구하고 나타났습니다. 프롬프트 최적화, 심층 검색, 필러 노이즈 감소, 그리고 가장 강력한 LLM조차도 이 격차를 메우지 못했습니다. 내부 LLM으로 Claude Opus 4.7과 결합된 파일 기반 에이전트만이 이 격차를 부분적으로 메웠지만, 이는 기준선 비용의 약 70배에 달하여, 현재 그 폐쇄가 대규모에서 실용적이지 않은 구성에 의존하고 있음을 시사합니다. 코드와 데이터는 프로젝트 페이지(https://seokwonjung-jay.github.io/meme-eval/)에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기