Mem0가 해결한 『AI 에이전트의 기억』 ── AWS가 선택한 외장형 설계

AI 에이전트의 메모리는 컨텍스트 창 (Context Window)을 무작정 넓히기만 하면 해결될 문제라고 여겨져 왔다. 하지만 Mem0가 제시한 수치는 전혀 달랐다. 풀 컨텍스트 (Full Context) 방식이 1회당 26,031 토큰을 소모하는 반면, Mem0는 1,764 토큰으로 동등한 정밀도를 구현한다 (ECAI 2025 논문 Table 2). 비교 대상인 Zep은 기억 그래프 전체에서 60만 토큰 이상을 필요로 한다고 보고되었는데, 이는 Mem0의 1회 대화당 토큰량과 비교했을 때 메모리 규모 면에서 약 340배에 달한다 (동 논문 §4.5). AWS는 이 Mem0를 에이전트 SDK의 공식 메모리 프로바이더 (Memory Provider)로 선택했으며, 2026년 4월의 신규 알고리즘에서는 LoCoMo 91.6점을 평균 약 7,000 토큰으로 달성했다. 이 기사에서는 Mem0가 해결한 『AI 에이전트의 기억』의 내용, 해외 4개사의 사용법, 그리고 여기서 파생되어 만들 수 있는 프로덕트를 정리한다.

ChatGPT의 채팅 이력과 AI 에이전트의 「기억」은 겉보기에는 비슷해 보여도 별개의 것이다. 전자는 과거의 메시지를 나열하여 매번 컨텍스트 창 (Context Window)에 흘려보낼 뿐이며, 사용자가 무엇을 선호하고 어떤 프로젝트를 진행 중인지 에이전트가 구조화하여 보유하고 있는 것이 아니다. 대화가 길어지면 오래된 메시지는 밀려나고, 다른 세션으로 전환하면 다시 처음부터 자기소개를 해야 하는 상황이 발생한다.

힘으로 해결한다면 "컨텍스트 창 (Context Window)을 1M 토큰까지 넓혀서 모든 이력을 매번 흘려보내면 된다"가 된다. 하지만 ECAI 2025 논문 (Chhikara et al.)이 측정한 수치는 그 한계를 명확히 보여준다. 풀 컨텍스트 (Full Context) 방식은 정밀도는 72.9% (LLM-as-Judge)를 기록하지만, p95 레이턴시 (Latency)는 17.1초이며, 1회당 토큰 소비는 26,031 토큰에 달한다. 1M 토큰 입력을 Claude Sonnet 4.6으로 돌리면 1회당 3달러 상당이 소요된다. 하루에 50개의 태스크를 실행하는 것만으로도 150달러가 문맥 오버헤드 (Context Overhead)로 사라진다는 추산도 있다 (Hermes OS의 분석).

Mem0는 LLM과 앱 사이에 끼어드는 『똑똑한 캐시 (Cache)』와 같은 위치에 있으며, 컨텍스트 창 (Context Window)을 넓히는 싸움에서 내려와 데이터베이스처럼 "사실만을" 추출하는 방향으로 키를 잡은 것이 이 라이브러리의 설계상의 선택이다.

Mem0의 동작 방식은 논문에서 3단계로 정리되어 있다. 대화 이력을 그대로 저장하는 것이 아니라, 매번 "사실"로 압축하여 다루는 것이 포인트다.

제1단계 (추출, Extraction): 새로운 발화 쌍이 들어오면, Mem0는 내부의 소형 LLM (GPT-4o-mini 상당)을 통해 "중요한 사실"을 뽑아낸다. 가공되지 않은 발화인 "어제 피자를 먹었는데 견과류 조각이 섞여 있어서 목이 따끔거렸어"는 "사용자는 견과류 알레르기가 있다"라는 한 줄의 사실로 압축된다.

제2단계 (갱신, Update): 추출한 사실을 기존의 기억 벡터 (Memory Vector) 중에서 의미적으로 가까운 것과 대조한다. LLM이 "추가 (ADD)", "덮어쓰기 (UPDATE)", "삭제 (DELETE)", "변경 없음 (NOOP)"의 4가지 선택지 중 하나를 판단한다. 사용자가 나중에 "견과류 알레르기는 나았어"라고 말하면, 과거의 사실은 단순히 삭제되는 것이 아니라 『무효화』된다. 사실의 이력을 남겨둔 채 현재의 상태만을 갱신할 수 있는 구조다.

제3단계 (취득, Retrieval): 다음에 사용자가 무언가를 말할 때, 3가지 병렬 경로로 점수를 산출한다. 의미적 유사도 (Semantic Similarity), 키워드 일치 (BM25), 엔티티 (Entity) 일치다. 이 세 가지를 통합 점수로 합쳐 관련도가 높은 기억만을 불러온다. 2026년 4월의 신규 알고리즘 (Single-pass Hierarchical Extraction + Multi-signal Retrieval)은 이 다중 신호 취득을 한 단계 더 강화한 것이다.

파생 버전인 Mem0g (그래프 버전)에서는 기억을 엔티티 (Entity)의 노드 (Node)와 관계 (Relation)의 에지 (Edge)로 표현하여 Neo4j 상에 보유한다. 대화문의 흐름이 아니라 "인물·조직·시각"의 연결성을 유지하고 싶은 케이스에서 효과적이지만, 본 기사에서는 표준 버전을 주로 다룬다.

수치를 나열한다.

ECAI 2025 논문 Table 2 측정값: Mem0는 대화당 1,764토큰을 사용하며, LLM-as-Judge 점수는 66.88%(±0.15)이다. Zep은 대화당 3,911토큰을 사용하며 65.99%(±0.16)를 기록했다. 다만 Zep은 메모리 그래프 전체에서 60만 토큰 이상을 필요로 하는 설계로 알려져 있으며(동 논문 §4.5), 메모리 축적 규모 면에서는 Mem0와 약 340배의 차이가 난다. 풀 컨텍스트 (Full-context) 방식 대비 p95 레이턴시(Latency)를 91% 절감하였고, 토큰 비용은 90% 이상 절감했다. OpenAI Memory 대비 정확도는 상대적으로 26% 향상되었다 (arXiv 2504.19413).
2026년 4월의 새로운 알고리즘에서는 LoCoMo 91.6점, LongMemEval 93.4점, BEAM 1M 64.1점을 쿼리당 평균 약 6,956토큰으로 달성했다 (Mem0 자체 측정, 공식 블로그 「State of AI Agent Memory 2026」 게재 값).
시간적 추론 (Temporal Reasoning)에서 +29.6포인트, 멀티홉 추론 (Multi-hop Reasoning)에서 +23.1포인트 개선.

숫자의 의미를 해석하면, Mem0는 "전부를 전달하는 대신, 추출한 사실만을 전달한다"라는 데이터베이스적인 해법을 정확도를 떨어뜨리지 않고 성립시켰다는 뜻이다. Zep과 같은 시계열 그래프형과 비교하면, 대화당 토큰 소비도 가볍고 메모리 전체의 축적 규모 또한 수백 배나 작은 상태를 유지하면서도 풀 컨텍스트 방식의 정확도에 도달했다. LLM의 장기 기억 (Long-term Memory)을 다루는 데 있어, 우선 수치로 비교한다면 Mem0는 현시점에서 가장 효율적인 부류에 속한다.

Mem0의 OSS(Open Source Software) 버전은 Apache 2.0 라이선스이며, pip install mem0ai로 설치할 수 있다 (패키지명이 mem0가 아니라 mem0ai이므로 주의해야 한다). 최소한의 사용법은 다음과 같다.

from mem0 import Memory
from openai import OpenAI
memory = Memory() # 내부에서 벡터 스토어 (Vector Store)와 LLM을 구동
...

user_id 대신 agent_id나 run_id를 전달하면, 에이전트 단위 또는 실행 단위로 기억 범위 (Memory Scope)를 분리할 수 있다 (Mem0는 대화, 세션, 사용자, 조직의 4개 계층 메모리를 가진다). AWS Strands Agents SDK와 조합할 경우에는 Agent(tools=[mem0_memory, use_llm]) 형태로 mem0_memory를 에이전트의 도구 (Tool)로서 직접 전달할 수 있다.

AWS (미국): 2025년 5월, Amazon은 Strands Agents SDK의 공식 메모리 프로바이더로서 Mem0와 전략적 파트너십을 체결했다 (Mem0 공식 블로그). Bedrock의 모델과 Mem0를 결합하여, 에이전트가 과거 대화를 기억한 상태로 동작하는 구성을 SDK 출시 첫날부터 지원한다.

Trend Micro (글로벌, 사이버 보안): 사내용 AI 챗봇인 「Trend's Companion」을 Amazon Bedrock + Amazon Neptune + Mem0 구성으로 구축했다 (2026년 4월 22일, AWS 공식 블로그에서 상세 공개). Neptune이 조직 구조 및 프로세스의 지식 그래프 (Knowledge Graph)를 보유하고, Mem0가 단기(대화) 및 장기(영속적인 업무 지식) 메모리를 관리한다. 저자는 Trend Micro의 시니어 아키텍트 Shawn Tsai와 AWS의 솔루션 아키텍트진 (Ray Wang, Zhihao Lin)이다.

Groq (미국, LPU 추론 인프라): GroqCloud 상에서 Mem0를 실시간으로 동작시키는 사례를 공식적으로 공개했다. Groq의 LPU로 교체함으로써 레이턴시를 약 1/5 수준인 엔드 투 엔드 (End-to-End) 2초 미만으로 달성했다. 공동 창업자이자 CTO인 Deshraj Yadav는 공식 기사에서 "Groq의 결정론적(Deterministic)이고 저지연(Low-latency)인 추론이, 사용자를 가로지르는 실시간 기억의 신뢰할 수 있는 기반이 될 것"이라고 언급했다.

BrowserUse (오픈 소스, 브라우저 자동화 에이전트): 웹 브라우저를 조작하는 OSS 에이전트이다. Mem0 통합을 통해 태스크 완료율을 66%에서 98%까지 끌어올렸다 (+32포인트). 동시에 LLM 비용은 41% 감소했다. 에이전트가 과거에 동일한 사이트에서 실패했던 절차를 기억함으로써 불필요한 시행착오가 사라진 결과이다.

한편, InfoWorld의 취재 기사에 따르면 Netflix, Lemonade, Rocket Money도 Mem0를 프로덕션 환경에 도입하고 있다고 보도되었다 (각 사의 개별 공식 발표는 본 기사 작성 시점 기준으로 확인되지 않았으며, 출처는 InfoWorld의 기술에 따른다).

에이전트 메모리 (Agent Memory) 분야에는 또 다른 파벌이 있다. 대표적인 것은 Letta와 Zep이다.

Letta (구 MemGPT): UC 버클리에서 시작된 연구를 기반으로 하며, 에이전트가 "자신의 메모리를 스스로 관리하는" OS적인 구조를 채택한다. 코어 메모리 (Context Window 내), 리콜 메모리 (디스크 캐시 상당), 아카이벌 메모리 (콜드 스토리지 상당)의 3개 계층을 에이전트가 함수 호출 (Function Calling)을 통해 명시적으로 주고받는다. 에이전트는 Letta 위에서 "실행되는" 것으로 설계되어 있으며, 기존 스택으로부터의 이전에 2~6주간의 개발 공수가 필요할 것이라고 TokenMix의 보고서는 추산하고 있다.

Zep: 시간 정보가 포함된 지식 그래프 (Temporal Knowledge Graph)가 핵심이다. "언제부터 언제까지 그 사실이 유효한가"를 모든 팩트 (Fact)에 기록하여 시계열 쿼리 (Time-series Query)에 강하다. Atlan의 랭킹에서는 LongMemEval 전체 점수에서 63.8점 (Mem0 구버전은 49점)을 기록했다. 다만 ECAI 2025 논문 §4.5에서는 Zep의 전체 기억 그래프가 60만 토큰을 초과한다고 보고되었다.

Mem0: LLM과 애플리케이션 사이에 끼워 넣는 "라이브러리형"이다. 프레임워크에 의존하지 않으며, LangChain, CrewAI, AutoGen, 자체 루프 등 무엇이든 연결할 수 있다. 락인 (Lock-in) 효과가 낮아 다른 라이브러리로 교체하는 작업도 며칠 내로 끝난다.

정리하면 다음과 같다. 에이전트를 통째로 Letta에 올리고 싶은 사람에게는 Letta, 시계열로 사실이 변하는 업무 (법무, 의료, 금융)에서 정밀한 시간 추적을 가장 중요하게 생각한다면 Zep, 우선 기존 스택에 기억 계층만 사후에 추가하고 싶다면 Mem0가 적합하다.

기초 사례: TrendMicro가 사내 Copilot에서 채택한 Bedrock + Neptune + Mem0 구성.

발전 아이디어: 임상 시험 (Clinical Trial)에 참여하는 환자와 대화하는 의료진용 AI 어시스턴트. 환자별로 부작용 호소, 복약 누락, 기분 변화를 모두 Mem0의 user_id 단위로 영속화(Persistence)하고, Neptune에는 프로토콜 (임상시험 계획서)과 금기 약물에 대한 지식 그래프를 둔다. 다음 대화 시 과거 30일간의 상태 변화가 사실 리스트로 반환되므로, 의료진이 "지난번으로부터의 변화"를 매번 다시 물어볼 필요가 없어진다. Mem0의 시계열 쿼리 (Temporal Queries, +29.6포인트 개선)가 효과적인 시나리오로, "언제 증상이 나타나기 시작했는지", "복용과 증상 사이의 전후 관계"를 물을 수 있는 것이 핵심이다.

기초 사례: BrowserUse가 Mem0를 통합하여 태스크 완료율을 66%에서 98%로 높이고, 비용을 41% 절감한 사례.

발전 아이디어: Zendesk나 Intercom 같은 티켓형 지원 SaaS는 과거 문의 내용을 "전문 검색 (Full-text Search)"으로 불러오는 구조로 되어 있다. 이를 고객 개인 단위로 사실화 (예: "2024년에 해지를 한 번 시사함", "계약 형태는 Enterprise")한 Mem0 레이어로 교체하면 AI 답변 초안의 정확도가 달라진다. 기존 SaaS 중 "기억을 다루는 레이어"만 교체하는 BYOM (Bring Your Own Memory)형 미들웨어로 판매한다.

기초 사례: AWS가 Strands의 공식 메모리 프로바이더로 Mem0를 채택했다는 사실 그 자체.

발전 아이디어: 에이전트가 개별 서비스에 종속되어 기억을 갖는 현재의 상황을 뒤집는다. 사용자 측이 "자신의 기억"을 클라우드에 소유하고, 원하는 AI 서비스에 기억과 함께 로그인하는 세상을 만든다. OpenID와 같은 인증 연동과 결합하여, ChatGPT, Claude, Gemini 모두에 자신의 식단 제한, 선호하는 톤, 진행 중인 프로젝트를 동일한 user_id로 전달할 수 있게 한다. CEO가 말한 "모든 애플리케이션이 데이터베이스를 필요로 하듯, 모든 에이전트는 기억을 필요로 한다"를 사용자에게 주권을 넘겨주는 형태로 구현하는 새로운 카테고리다.

시계열 추론이 업무의 중심(법무, 의료, 금융)이며, 사실의 유효 기간을 엄격하게 추적하고 싶은 경우: Zep이 더 안심할 수 있다. Mem0도 시간 정보를 가지지만, 그래프 구조의 정밀함에서는 뒤처진다.
기존의 LangChain이나 CrewAI, 자체 루프에 '나중에' 기억 계층을 추가하고 싶은 경우: Mem0가 최단 경로다. 락인 효과도 낮다.
에이전트의 실행 런타임 (Runtime) 자체를 통째로 맡기고 싶은 경우: Letta
관리형 SaaS로 사용하고 싶은 경우: Mem0 플랫폼은 SOC 2, HIPAA, BYOK, 온프레미스(On-premise) 전개에 대응한다. 그래프 메모리는 월 249달러의 Pro 플랜부터 제공된다는 점은 유의해야 한다 (Atlan "Best AI Agent Memory Frameworks in 2026").

「LLM-as-Judge 91.6점」과 같은 수치는 Mem0가 자사의 벤치마크 기반(memory-benchmarks) 위에서 측정한 것이므로, 자사 워크로드(workload)에서도 동일한 차이가 나타난다고 단정할 수는 없다. 사내 데이터로 소규모 테스트를 진행하여 토큰량, 레이턴시 (latency), 답변 품질을 먼저 측정한 후 본 채택을 결정하는 것이 안전하다.

GitHub 리포지토리: mem0ai/mem0 (56,100 스타, Apache 2.0, @mem0/cli v0.2.5가 2026년 5월 14일 출시)
논문 (ECAI 2025): Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory
2026년 4월 신규 알고리즘 공식 해설: State of AI Agent Memory 2026
AWS Strands SDK 통합 발표: AWS and Mem0 Partner Blog
공식 문서: docs.mem0.ai

긴 컨텍스트 창 (context window)을 가진 LLM이 당연해지더라도, AI 에이전트의 메모리는 그것만으로는 해결되지 않는다. 오히려 컨텍스트 창을 넓힐수록 매번 어떤 정보를 전달할 것인가라는 선별의 문제가 커진다. Mem0가 보여주는 것은 "모든 이력을 매번 보내는" 것이 아니라, "사실만을 추출하여 보관하고 관련 있는 것만 꺼내오는" 데이터베이스적인 발상이다. CEO Taranjeet Singh의 말인 "모든 애플리케이션이 데이터베이스를 필요로 하듯이, 모든 에이전트는 기억을 필요로 한다" (Mem0 공식 PR, 2025년 10월)는 에이전트 시대 인프라의 윤곽을 잘 보여준다.

질문은 이제부터다. 당신이 만들고 있는 프로덕트의 어느 부분에 "기억"을 얹었을 때 사용자 경험이 한 단계 격상될 것인가. 기억 계층 (memory layer)은 화려한 기능은 아니지만, 앞으로 등장할 에이전트 제품의 차별화를 배후에서 지탱하는 토대가 될 것으로 보인다.

Mem0가 해결한 『AI 에이전트의 기억』 ── AWS가 선택한 외장형 설계

요약

핵심 포인트

댓글