무엇을 잊지 말아야 할지 배우기: 단 몇 킬로바이트의 학습을 통한 장기적 에이전트 메모리 (Long-Horizon Agent Memory)
요약
장기 실행되는 LLM 에이전트의 컨텍스트 관리를 위해 학습된 관련성 제거(LRE) 방식을 제안합니다. LRE는 CPU 기반의 가벼운 스코어러를 통해 핵심 정보를 유지하며, 컨텍스트 크기를 최대 52% 줄이면서도 높은 정확도를 유지합니다.
핵심 포인트
- LRE는 단 몇 킬로바이트 규모의 CPU 전용 스코어러로 동작함
- 컨텍스트 크기를 최대 52% 감소시키며 비용 효율성 극대화
- 전체 이력을 유지하는 방식과 유사한 수준의 에이전트 정확도 달성
- 주석이 필요 없는(Annotation-free) 방식으로도 높은 성능 회복 가능
장시간 실행되는 언어 모델 (Language-model) 시스템은 컨텍스트 창 (Context window)을 초과하여 커지는 상호작용 이력을 축적하므로, 이를 지속적으로 제거 (Evict)해야 합니다. 만약 제거 정책 (Eviction policy)이 로그인 시 발급된 액세스 토큰이나 다음 호출에 필요한 경로와 같이 핵심적인 세부 사항을 삭제하면, 해당 동작은 실패하게 됩니다. 우리는 LRE (Learned Relevance Eviction)를 제안합니다. 이는 단 몇 킬로바이트 규모의 CPU 전용이며 언어 모델이 필요 없는 스코어러 (Scorer)로, 이력의 어떤 단위가 핵심적인지 학습하여 이를 축자 추출 (Verbatim extraction) 방식으로 유지합니다. 동일한 예산 (Budget) 비교 실험에서, LRE는 정확도-비용 평면 (Accuracy-cost plane) 상에서 어떤 베이스라인 (Baseline)도 압도하지 못할 만큼 우수했습니다. 에이전트 (Agents) 환경에서 LRE는 전체 이력을 유지하는 것과 동일한 정확도를 보여주었습니다. 가장 단순한 작업들에서는 제거를 하지 않는 베이스라인보다 27% 더 높은 성능을 보였으며, 압축기 (Compressor) 호출이 전혀 필요 없고 피크 컨텍스트 크기 (Peak context size)를 최대 52%까지 줄였습니다. 통제된 연구 트레이스 (Controlled study trace)에 따르면, LRE는 다른 방식들이 루프 (Loop)에 빠지는 작업들을 완수했으며, 모든 것을 유지하는 방식보다 37% 적은 호출로 해당 작업을 완료했고, 다른 실행 정책이 해결하지 못한 14개의 작업을 해결했습니다. 대화형 메모리 (Conversational memory) 측면에서 LRE는 신경망 비용 (Neural cost) 없이 밀집형 (Dense) 및 토큰 프루닝 (Token-pruning) 인코더보다 높은 순위를 기록했습니다. 다운스트림 평가 (Downstream evaluation)에서 LRE는 LoCoMo에서 토큰을 68% 적게 사용하면서도 예산 대비 최상의 답변 품질을 제공했습니다. 또한 LRE의 감독 (Supervision)은 주석이 필요 없는 (Annotation-free) 방식이 가능합니다. 시스템 자체의 동작만으로 학습해도 지도 학습된 스코어러 (Supervised scorer) 효과의 95%를 회복합니다. 우리는 LLM 에이전트의 메모리 제거가 충실도 (Fidelity) 문제이기 때문에, 미래의 쿼리 (Query)를 사용할 수 없고 정확한 상태 (State)가 결정적인 상황에서 배포 가능한 선제적 정책 (Proactive policy)이 필요하며, 저렴한 학습된 관련성 (Learned relevance)만으로도 충분할 수 있다고 주장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기