MemTrace: 대규모 언어 모델(LLM) 메모리 시스템의 오류 추적 및 원인 규명
요약
LLM 메모리 시스템의 오류 추적 및 원인 규명을 위한 새로운 프레임워크인 MemTrace를 제안합니다. 메모리 진화 그래프를 통해 정보 흐름을 추적하고, MemTraceBench를 통해 다양한 메모리 시스템의 실패 모드를 체계적으로 분석합니다.
핵심 포인트
- 메모리 파이프라인을 실행 가능한 진화 그래프로 변환
- Mem0, RAG 등 대표 시스템 대상 MemTraceBench 구축
- 정보 손실 및 검색 불일치 등 체계적 실패 원인 규명
- 프롬프트 최적화를 통한 성능 최대 7.62% 향상
메모리는 대규모 언어 모델(Large Language Models, LLM)이 장기적 추론(Long-horizon reasoning)을 지원할 수 있도록 하는 데 필수적이지만, 기존의 메모리 시스템은 여전히 신뢰할 수 없으며 디버깅(Debug)하기 어렵습니다. 정보가 시간이 지남에 따라 어떻게 합성되고, 전파되거나, 손상되는지 이해하기 위해서는 메모리의 동적인 진화 과정을 추적하는 것이 매우 중요합니다. 본 연구에서는 LLM 메모리 시스템에서의 오류 추적(Error tracing) 및 원인 규명(Attribution)이라는 새로운 문제를 연구합니다. 우리는 메모리 파이프라인(Memory pipelines)을 실행 가능한 메모리 진화 그래프(Memory evolution graphs)로 변환하여, 운영 정보 흐름(Operational information flow)을 세밀하게 추적할 수 있는 새로운 프레임워크를 제안합니다. 그런 다음 Long-Context, RAG, Mem0, EverMemOS와 같은 대표적인 메모리 시스템으로부터 수집된 벤치마크인 MemTraceBench를 구축하여 메모리 실패 모드(Memory failure modes)를 체계적으로 연구합니다. 나아가, 우리는 실패한 사례의 근본 원인을 정확히 찾아내기 위해 운영 서브그래프(Operation subgraphs)를 반복적으로 추적하는 자동 원인 규명(Automatic attribution) 방법을 도입합니다. 우리의 분석 결과, 메모리 실패는 정보 손실(Information loss) 및 검색 불일치(Retrieval misalignment)와 같은 운영 수준의 문제에서 비롯되는 체계적인 것임을 밝혀냈습니다. 결정적으로, 우리는 이러한 세밀한 원인 규명 신호(Attribution signals)를 활용하여 다운스트림 프롬프트 최적화(Prompt optimization)를 유도함으로써, 결함을 자동으로 수정하고 최종 작업 성능을 최대 7.62%까지 향상시키는 폐쇄 루프 시스템(Closed-loop system)을 구축했습니다. 코드는 https://github.com/zjunlp/MemTrace 에서 공개될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기