정리 후 검색: 효율적인 에이전트를 위한 계층적 메모리 탐색
요약
LLM 에이전트의 장기 과업 수행 시 발생하는 컨텍스트 과부하 문제를 해결하기 위해 계층적 메모리 구조인 HORMA를 제안합니다. 경험을 파일 시스템처럼 구조화하여 상세 정보를 유지하면서도 효율적인 탐색과 검색이 가능하도록 설계되었습니다.
핵심 포인트
- 계층적 정리-및-검색 메모리 구조인 HORMA 제안
- 파일 시스템 방식의 계층적 구조로 정보 손실 최소화
- 강화학습 기반 탐색 모듈로 효율적인 컨텍스트 검색
- 기존 방식 대비 토큰 사용량을 최대 22.17%로 절감
- 긴 대화 및 미학습 과업에서도 높은 일반화 성능 입증
대규모 언어 모델 (LLM) 에이전트는 본질적인 무상태성 (statelessness)으로 인해 장기적 과업 (long-horizon tasks) 수행에 어려움을 겪으며, 이로 인해 모든 과업 관련 정보를 계속해서 커지는 입력 컨텍스트 (input contexts)에 인코딩해야 합니다. 그 결과 발생하는 추론 품질 저하, 추론 비용 증가 및 지연 시간 (latency) 상승은 효율적인 작업 메모리 (working memory) 메커니즘을 필요로 합니다. 그러나 기존 방식들은 손실이 있는 압축 (lossy compression) 또는 유사도 기반 검색 (similarity-based retrieval)에 의존하며, 이는 다단계 에이전트 과업에 필요한 시간적 구조와 인과 관계 (causal dependencies)를 포착하는 데 종종 실패합니다.
본 연구에서는 경험을 파일 시스템과 유사한 계층적 구조로 정리하는 계층적 정리-및-검색 메모리 에이전트인 HORMA를 제안합니다. 여기서 요약된 엔티티 (entities)는 해당 원시 궤적 (raw trajectories)과 연결되어, 상세한 정보를 잃지 않으면서도 효율적인 접근을 가능하게 합니다. HORMA는 작업 메모리를 두 단계, 즉 구조화된 메모리 구축 (structured memory construction)과 탐색 기반 검색 (navigation-based retrieval)으로 분해합니다. 구축 모듈은 정보 누락으로 인한 실패와 오도되거나 과부하된 컨텍스트로 인한 실패를 구분함으로써 경험이 구조화되는 방식을 반복적으로 개선합니다. 탐색 모듈은 강화학습 (reinforcement learning)으로 훈련된 경량 에이전트를 사용하여 계층 구조를 탐색함으로써 과업 관련 컨텍스트를 검색하며, 이 에이전트는 최소하면서도 충분한 컨텍스트를 선택하여 실행 경로를 따라 지연 시간을 줄입니다.
ALFWorld, LoCoMo, LongMemEval 전반에 걸쳐, HORMA는 제한된 컨텍스트 예산 하에서 과업 성능을 향상시키는 동시에, 긴 대화 과업에서 베이스라인 토큰 사용량의 최대 22.17%만을 요구합니다. 기존 방법들과 비교했을 때, HORMA는 일관되게 더 나은 효율성-성능 트레이드오프 (efficiency-performance trade-offs)를 달성하며 미학습 과업에도 효과적으로 일반화됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기