$δ$-mem: Large Language Models를 위한 효율적인 온라인 메모리
요약
LLM이 장기 정보 축적 및 에이전트 시스템에서 효율적으로 작동하기 위해 $δ$-mem이라는 경량 메모리 메커니즘을 제안합니다. 이 방법은 고정된 Full-attention 백본을 델타 규칙 학습으로 업데이트되는 고정 크기의 상태 행렬로 보강하여 과거 정보를 압축합니다. $δ$-mem은 생성 과정 중 어텐션 계산에 저차원 수정을 적용함으로써, 적은 메모리 상태만으로도 기존 모델 대비 높은 성능 향상을 달성하며 특히 메모리 집약적인 벤치마크에서 큰 이점을 보여줍니다.
핵심 포인트
- $δ$-mem은 LLM의 장기 기억을 위해 고정된 백본에 온라인 상태를 추가하는 경량 메모리 메커니즘이다.
- 과거 정보는 델타 규칙 학습을 통해 업데이트되는 고정 크기의 상태 행렬로 압축된다.
- 이 방법은 어텐션 계산에 저차원 수정을 적용하여 효율적으로 메모리를 구현한다.
- 적은 온라인 메모리 상태($8 imes8$)만으로도 기존 모델 대비 높은 성능 향상을 달성한다.
- 전체 미세 조정이나 백본 교체 없이도 효과적인 메모리 기능을 제공하며, 특히 MemoryAgentBench와 같은 벤치마크에서 큰 이점을 보인다.
Large Language Models (LLM)는 장기 보조 도구 및 에이전트 (Agent) 시스템에서 역사적 정보를 축적하고 재사용해야 할 필요성이 점점 커지고 있습니다. 단순히 컨텍스트 윈도우 (Context Window)를 확장하는 것은 비용이 많이 들며, 효과적인 컨텍스트 활용을 보장하지 못하는 경우가 많습니다. 우리는 동결된 (Frozen) Full-attention 백본 (Backbone)을 연상 메모리 (Associative Memory)의 컴팩트한 온라인 상태 (Online State)로 보강하는 경량 메모리 메커니즘인 $δ$-mem을 제안합니다. $δ$-mem은 과거 정보를 델타 규칙 학습 (Delta-rule learning)에 의해 업데이트되는 고정 크기의 상태 행렬 (State Matrix)로 압축하며, 생성 과정 중 백본의 어텐션 (Attention) 계산에 대해 저차원 수정 (Low-rank corrections)을 생성하기 위해 해당 판독 (Readout)을 사용합니다. 단 $8\times8$ 크기의 온라인 메모리 상태만으로, $δ$-mem은 평균 점수를 동결된 백본의 $1.10\times$ 및 가장 강력한 비-$δ$-mem 메모리 베이스라인 (Baseline)의 $1.15\times$ 수준으로 향상시킵니다. 또한 일반적인 능력을 크게 유지하면서도, MemoryAgentBench에서는 $1.31\times$, LoCoMo에서는 $1.20\times$에 달하는 등 메모리 집약적인 벤치마크에서 더 큰 이득을 달성합니다. 이러한 결과는 전체 미세 조정 (Full fine-tuning), 백본 교체, 또는 명시적인 컨텍스트 확장 없이도, 어텐션 계산과 직접 결합된 컴팩트한 온라인 상태를 통해 효과적인 메모리를 구현할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기