Mem-$\pi$: 생성 시점과 내용을 학습하여 적응형 메모리 구현하기
요약
Mem-$\pi$는 LLM 에이전트를 위한 적응형 메모리 프레임워크로, 기존의 유사도 기반 검색 방식 대신 필요할 때 문맥에 특화된 가이드를 직접 생성합니다. 전용 언어 또는 시각-언어 모델을 사용하여 생성 시점과 내용을 결정하며, 강화학습을 통해 불필요한 생성을 억제하고 유용한 정보만을 제공하도록 학습되었습니다. 다양한 벤치마크 테스트 결과, 기존 검색 기반 방식보다 뛰어난 성능을 보였으며 특히 웹 네비게이션 작업에서 30% 이상의 성능 향상을 기록했습니다.
핵심 포인트
- 기존의 정적인 유사도 기반 검색(Similarity-based retrieval) 방식의 한계를 극복
- 에이전트와 분리된 전용 모델을 통해 문맥 특화형 가이드를 생성하는 적응형 메모리 구현
- 결정과 내용이 분리된 강화학습(RL) 목적 함수를 사용하여 생성의 효율성 최적화
- 웹 네비게이션, 터미널 도구 사용, 텍스트 기반 임바디드 상호작용 등 다양한 환경에서 성능 입증
우리는 대규모 언어 모델 (LLM) 에이전트를 위한 적응형 메모리 프레임워크인 Mem-$\pi$를 선보입니다. 이 프레임워크에서는 유용한 가이드를 외부 메모리 저장소에서 검색하는 대신, 필요할 때 생성합니다. 기존의 메모리 증강 (Memory-augmented) 에이전트들은 일반적으로 에피소드 메모리 뱅크 (Episodic memory banks) 또는 스킬 라이브러리 (Skill libraries)로부터 유사도 기반 검색 (Similarity-based retrieval)에 의존하며, 이는 현재의 문맥 (Context)과 일치하지 않는 정적인 항목을 반환하는 경우가 많습니다. 이와 대조적으로, Mem-$\pi$는 다운스트림 에이전트와 분리되어 자체 파라미터를 가진 전용 언어 또는 시각-언어 모델 (Vision-language model)을 사용하여 복잡한 작업을 위한 문맥 특화형 가이드를 생성합니다. 현재 에이전트의 문맥을 조건으로 하여, 이 모델은 언제 가이드를 생성할지, 그리고 어떤 가이드를 생성할지를 공동으로 결정합니다. 우리는 결정과 내용이 분리된 강화학습 (RL) 목적 함수를 사용하여 이를 학습시키며, 이를 통해 생성이 도움이 되지 않을 때는 생성을 자제하고, 그 외의 경우에는 간결하고 유용한 가이드를 생성할 수 있게 합니다. 웹 네비게이션 (Web navigation), 터미널 기반 도구 사용 (Terminal-based tool use), 텍스트 기반 임바디드 상호작용 (Text-based embodied interaction)을 아우르는 다양한 에이전트 벤치마크 전반에서 Mem-$\pi$는 검색 기반 및 이전의 RL 최적화 메모리 베이스라인들을 지속적으로 능가하며, 웹 네비게이션 작업에서 30% 이상의 상대적 향상을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기