Mandol: 장기 대화를 위한 응집형 에이전트 메모리 시스템
요약
Mandol은 파편화된 에이전트 메모리를 통합된 메모리 네이티브 아키텍처로 구축하는 응집형 메모리 시스템입니다. 계층적 시맨틱 그래프와 하이브리드 검색 연산자를 통해 기존 RAG 방식의 지연 시간과 노이즈 문제를 해결합니다.
핵심 포인트
- 기본 계층과 추상 계층으로 구성된 계층적 메모리 모델 제안
- 벡터, 그래프, 키-값 구조를 통합한 응집형 시맨틱 데이터 구조
- LLM 개입 없이 수행되는 정량적 질의 메커니즘 도입
- 벤치마크 결과 기존 시스템 대비 검색 및 삽입 속도 대폭 향상
장기 대화 에이전트(Long-term conversational agents)는 복잡한 상관관계를 가진 세션 간, 다중 유형의 정보를 기억하고 질의해야 합니다. 기존의 에이전트 메모리 시스템은 이질적인 벡터(vector) 및 그래프(graph) 데이터베이스에 의존하며, 이는 메모리 정보를 파편화하고 데이터베이스 간의 높은 I/O 지연(latency)을 유발합니다. 검색(retrieval)을 위해 흔히 사용되는 RAG(Retrieval-Augmented Generation) 방식의 방법론들은 노이즈를 유입시키고, 상관된 단서를 놓치며, 토큰 예산(token budget) 제어가 부족하여 LLM(Large Language Model)의 정확도와 효율성을 저하시키는 경향이 있습니다.
우리는 파편화된 메모리 표현과 저장소를 통합된 메모리 네이티브(memory-native) 아키텍처로 통합하는 응집형 메모리 시스템인 Mandol을 제안합니다. 핵심 구성 요소는 다음과 같습니다: (1) 메모리를 원시 메모리 정보를 나타내는 기본 계층(basic layer)과 기본 메모리를 추적 가능한 추상 메모리로 응집하는 상위 추상 계층(high-level abstract layer)으로 구성하며, 두 계층 모두 구조화된 시맨틱 그래프(semantic graphs)로 통일되어 표현되는 계층적 메모리 모델; (2) SemanticMap과 SemanticGraph를 결합하여 키-값(key-value), 벡터, 그래프 구조를 네이티브하게 융합하고 데이터베이스 간 I/O를 제거하기 위한 통합 하이브리드 검색 연산자를 제공하는 응집형 시맨틱 데이터 구조; (3) 검색 과정에서 LLM을 개입시키지 않으면서도 질의 적응형 라우팅(query-adaptive routing), 정량적 노이즈 제거(quantitative denoising) 및 충돌 해결, 토큰 제한 컨텍스트 생성(token-constrained context generation)을 수행하는 정량적 질의 메커니즘입니다.
널리 사용되는 두 가지 장기 대화 벤치마크인 LoCoMo와 LongMemEval에서의 실험 결과, Mandol은 대표적인 에이전트 메모리 시스템들 중 가장 우수한 종합 정확도를 달성했습니다. 성능 비교 측면에서 Mandol은 10 QPS(Queries Per Second) 동시 부하 환경에서 5.4배의 검색 속도 향상과 4.8배의 삽입 속도 향상을 기록했으며, 소비자급 하드웨어에서도 낮은 지연 시간을 유지했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기