Dev.to헤드라인2026. 06. 15. 04:49

LongMemEval에서 메모리가 전체 컨텍스트(Full Context)를 압도하다 — 그리고 우리가 놓치고 있는 승리들

요약

에이전트 메모리와 전체 컨텍스트(Full Context) 방식의 성능 및 비용을 비교 분석한 연구 결과입니다. 긴 이력의 데이터에서는 검색 기반 메모리가 정확도와 비용 효율성 면에서 압도적이지만, 짧은 이력에서는 전체 컨텍스트 방식이 유리함을 보여줍니다.

핵심 포인트

LongMemEval 벤치마크에서 메모리 방식이 정확도 14.2%p 우세
메모리 방식은 전체 컨텍스트 대비 토큰 사용량을 최대 39배 절감
이력이 짧은 LoCoMo 환경에서는 전체 컨텍스트 방식이 정확도 면에서 우위
실무 적용 시 대화 이력 길이에 따른 메모리 엔진 도입 결정 필요

에이전트 메모리(Agent memory)에 대한 흔한 반론은 그것이 필요 없다는 것입니다. 이제 컨텍스트 윈도우(Context windows)가 매우 커졌으므로, 전체 이력을 프롬프트에 그냥 넣으면 된다는 것이죠. 우리는 막연한 느낌이 아닌 실제적인 답변을 원했기에, 두 가지 공개 장기 메모리(Long-term-memory) 벤치마크를 전체 컨텍스트 베이스라인(Full-context baseline)과 비교하여 실행했습니다. 베이스라인이 승리하는 경우를 포함하여 우리가 발견한 결과는 다음과 같습니다.

설정 (The setup)

우리는 동일한 질문에 대해 두 가지 구성을 비교했습니다. **전체 컨텍스트 베이스라인(Full-context baseline)**은 전체 대화 이력을 프롬프트에 집어넣습니다. **Eidentic 메모리(Eidentic memory)**는 이력을 4단계 엔진(Four-tier engine)으로 흡수하고 각 질문에 필요한 내용만 검색(Retrieve)합니다. 두 방식 모두 동일한 모델과 동일한 LLM 판정관(LLM judge)을 사용합니다. 우리는 샘플링 없이 전체 세트를 실행했으며, 승리와 패배를 모두 공개합니다.

LongMemEval: 모든 영역에서 메모리의 승리

LongMemEval은 긴 이력을 사용합니다. 약 50개의 세션과 500개의 질문에 걸쳐 대략 115k 토큰(Tokens)에 달합니다. 이곳은 메모리가 도움이 되어야 하는 지점이며, 실제로 도움이 됩니다. 전체 컨텍스트의 41.0% 대비 55.2%의 전체 정확도를 기록하며 14.2포인트 차이로 앞섰고, 6가지 질문 유형 모두에서 승리했습니다.

질문 유형	전체 컨텍스트 (Full context)	Eidentic 메모리 (Eidentic memory)
단일 세션 · 사용자 (Single-session · user)	67.1%	84.3%
...

비용 차이는 이야기의 나머지 절반을 차지합니다. 메모리는 검색된 컨텍스트 약 2,550 토큰으로 각 질문에 답합니다. 반면 베이스라인은 매번 전체 이력을 다시 읽는 데 약 99,435 토큰을 소비합니다. 즉, 더 높은 점수를 얻으면서도 토큰 사용량은 최대 ~39배 적게 사용합니다. 여기서 검색(Retrieval)은 단순히 더 정확할 뿐만 아니라, 극적으로 저렴합니다.

LoCoMo: 전체 컨텍스트가 여전히 승리하는 곳

LoCoMo는 훨씬 더 작은 건초더미(Haystack)를 가지고 있습니다. 전체 이력이 윈도우(Window) 안에 여유롭게 들어갈 때는 무차별 대입(Brute force) 방식이 깨뜨리기 어렵습니다. 모델이 모든 것을 한 번에 볼 수 있으며, 단일 홉(Single-hop) 및 다중 홉(Multi-hop) 질문에 검색이 필요하지 않기 때문입니다. 이 경우 전체 컨텍스트 베이스라인이 7.8포인트 앞서 나갑니다. 메모리는 여전히 훨씬 적은 토큰을 사용하지만(~893 vs ~19,030), 이력이 짧은 경우에는 그 트레이드오프(Trade-off)가 정확도 측면에서 이득을 주지 못합니다.

이력이 길어질수록 메모리(Memory)가 정확도와 비용 측면 모두에서 승리합니다. 짧은 이력에서는 전체 컨텍스트(Full Context)가 여전히 경쟁력을 유지합니다. 저희는 여러분이 단순히 유리한 수치뿐만 아니라 두 수치 모두를 알기를 바랍니다.

이것이 실무에서 의미하는 바

만약 에이전트(Agent)의 대화가 짧고 제한적이라면, 메모리 엔진이 전혀 필요하지 않을 수도 있으며 저희는 그 점을 알려드릴 것입니다. 하지만 이력이 매 턴마다 다시 읽기 위해 지불하고자 하는 비용을 넘어 커지는 순간, 검색 기반 메모리(Retrieval-based memory)는 두 가지 측면에서 승리합니다: 더 나은 답변, 그리고 훨씬 적은 토큰(Token) 사용량입니다. 이러한 교차점(Crossover)은 실제 제품에서 빠르게 나타납니다.

전체 방법론(Methodology), 하네스(Harness), 그리고 질문별 원시 기록(Raw per-question records)은 benchmarks 문서에 있으며, 러너(Runner)는 repo에 있습니다. 이를 재현해 보시고 저희가 틀린 부분이 있다면 알려주세요.

AI 자동 생성 콘텐츠

원문 바로가기