본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 18. 22:39

RecMem: 효율적이고 효과적인 장기 실행 LLM 에이전트를 위한 재귀 기반 메모리 통합 방식

요약

RecMem은 장기 실행 LLM 에이전트의 메모리 통합 과정에서 발생하는 과도한 토큰 소비 문제를 해결하기 위해 제안된 재귀 기반 메모리 시스템입니다. 모든 상호작용을 즉시 처리하는 대신, 경량 임베딩 모델을 통해 의미적 재귀가 관찰될 때만 LLM을 호출하여 메모리를 통합함으로써 효율성을 극대화합니다. 실험 결과, 기존 SOTA 시스템 대비 토큰 비용을 최대 87% 절감하면서도 더 높은 정확도를 달성했습니다.

핵심 포인트

  • 성급한 메모리 통합(Eager consolidation) 대신 재귀 기반의 선택적 통합 방식 채택
  • 잠재의식 메모리 계층과 경량 임베딩 모델을 활용한 비용 효율적 인코딩
  • 의미론적 클러스터링을 통해 추출 가치가 높은 정보에만 LLM 자원 집중
  • 의미론적 정제(Semantic refinement) 메커니즘을 통한 세부 사실 복구 및 정확도 향상
  • 기존 SOTA 시스템 대비 토큰 비용 최대 87% 절감 및 성능 우위 증명

메모리 시스템은 종종 사용자-에이전트 상호작용을 검색 가능한 외부 메모리 (external memory)로 구성하며, 이는 LLM (Large Language Models)의 제한된 컨텍스트 윈도우 (context windows)를 극복함으로써 장기 실행 에이전트 (long-running agents)에게 매우 중요합니다. 그러나 기존의 메모리 시스템은 메모리 추출 (memory extraction)을 위해 들어오는 모든 상호작용을 처리하도록 LLM을 호출하며, 이러한 성급한 메모리 통합 (eager memory consolidation) 방식은 상당한 토큰 소비를 초래합니다. 이 문제를 해결하기 위해, 우리는 메모리 통합이 언제 수행되어야 하는지를 재고하여 RecMem을 제안합니다. RecMem은 들어오는 상호작용을 잠재의식 메모리 계층 (subconscious memory layer)에 저장하고, 검색을 위해 경량 임베딩 모델 (lightweight embedding models)을 사용하여 이를 인코딩합니다. LLM은 의미적으로 유사한 상호작용에 대해 지속적인 재귀 (sustained recurrence)가 관찰될 때만 에피소드 메모리 (episodic memory)와 의미론적 메모리 (semantic memory)를 추출하기 위해 호출됩니다. 이러한 재귀 기반 통합 (recurrence-based consolidation)이 작동하는 이유는 이러한 상호작용들이 풍부한 정보를 가진 의미론적 클러스터 (semantic cluster)에 해당하며, 따라서 추출 및 요약할 가치가 있기 때문입니다. 정확도를 높이기 위해, RecMem은 메모리 추출 과정에서 누락된 세밀한 사실들을 복구하는 의미론적 정제 (semantic refinement) 메커니즘을 통합합니다. 실험 결과, RecMem은 세 가지 SOTA (State-of-the-Art) 메모리 시스템의 메모리 구축 토큰 비용을 최대 87%까지 절감하면서도 그들의 정확도를 능가함을 보여주었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0