MEME: 다중 개체 및 진화하는 메모리 평가

LLM 기반 에이전트는 여러 세션에 걸쳐 정보를 저장하고, 업데이트하며, 추론해야 하는 영속적인 환경에서 점점 더 많이 작동합니다. 이전 벤치마크는 단일 개체 업데이트만을 평가했지만, MEME는 다중 개체 및 진화하는 축이 정의하는 전체 공간을 아우르는 여섯 가지 작업을 정의하며, 이 중 세 가지(Cascade 및 Absence (의존성 추론), Deletion (제거 후 상태))는 이전 작업에서 점수화되지 않았습니다. 100개의 통제된 에피소드를 통해 세 가지 메모리 패러다임을 포괄하는 여섯 개의 메모리 시스템을 평가한 결과, 모든 시스템이 기본 구성(Cascade: 평균 정확도 3%, Absence: 1%) 하의 의존성 추론에서 무너지는 것을 발견했습니다. 이는 적절한 정적 검색 성능에도 불구하고 나타났습니다. 프롬프트 최적화, 심층 검색, 필러 노이즈 감소, 그리고 가장 강력한 LLM조차도 이 격차를 메우지 못했습니다. 내부 LLM으로 Claude Opus 4.7과 결합된 파일 기반 에이전트만이 이 격차를 부분적으로 메웠지만, 이는 기준선 비용의 약 70배에 달하여, 현재 그 폐쇄가 대규모에서 실용적이지 않은 구성에 의존하고 있음을 시사합니다. 코드와 데이터는 프로젝트 페이지(https://seokwonjung-jay.github.io/meme-eval/)에서 이용 가능합니다.

Insights

MEME: 다중 개체 및 진화하는 메모리 평가

요약

핵심 포인트

댓글

요청에서 도구 하나를 제거해 보세요: 어떤 GPT-5 버전은 76%를 캐싱에 유지하지만, 다른 버전은 아무것도 유지하지 못합니다

나스닥, Tesla와 Alphabet 실적 발표를 앞두고 하락 마감

Justif - 웹을 위한 Knuth-Plass 양쪽 정렬과 마이크로타이포그래피

프로그래밍 잡기 2026년 7월 24일

요청에서 도구 하나를 제거해 보세요: 어떤 GPT-5 버전은 76%를 캐싱에 유지하지만, 다른 버전은 아무것도 유지하지 못합니다

나스닥, Tesla와 Alphabet 실적 발표를 앞두고 하락 마감

Justif - 웹을 위한 Knuth-Plass 양쪽 정렬과 마이크로타이포그래피

프로그래밍 잡기 2026년 7월 24일