ECHO: 에이전트 강화학습 (RL)에서 선택적 턴 메모리를 통한 가지치기 기반 행동 및 추적 기반 학습
요약
장기적 언어 에이전트의 컨텍스트 관리 문제를 해결하기 위해 선택적 턴 메모리 프레임워크인 ECHO를 제안합니다. ECHO는 이력 붕괴와 추적 불가능한 학습 문제를 해결하여 기존 방식보다 높은 정확도와 효율적인 메모리 사용량을 보여줍니다.
핵심 포인트
- 선택적 턴 메모리를 통해 제한된 컨텍스트 내에서 효율적인 이력 재구성 가능
- 소스 인덱스 기반 재구성을 통해 결과 기반 강화학습의 크레딧 할당 문제 해결
- BrowseComp-Plus 벤치마크에서 GRPO 및 SUPO 대비 높은 정확도 달성
- 코드 생성 및 심층 정보 탐색 등 다양한 작업에서 제로샷 일반화 성능 향상
장기적 관점의 언어 에이전트 (Long-horizon language agents)는 제한된 컨텍스트 창 (context windows) 내에서 도구와 반복적으로 상호작용하고, 증거를 축적하며, 의사결정을 내려야 합니다. 기존의 컨텍스트 관리 방법들은 먼 과거의 이력을 잘라내거나 (truncating), 과거의 턴들을 요약본으로 접어 넣거나 (folding), 압축된 메모리 상태를 선택함으로써 이러한 롤아웃 (rollouts)을 가능하게 합니다. 그러나 이러한 돌파구들은 서로 결합된 두 가지 한계를 야기합니다. 첫째, 턴의 수가 증가함에 따라 과거의 관찰값들이 점진적으로 제거되거나 압축된 상태로 붕괴되어, 정책 (policy)이 세밀한 증거를 재사용하기가 더 어려워집니다. 둘째, 원래의 턴들이 더 이상 소스 주소 지정이 불가능해지면, 결과 기반 강화학습 (outcome-based RL)은 성공적인 최종 답변을 뒷받침했던 증거와 정책 업데이트를 정렬할 수 있는 명시적인 경로를 잃게 됩니다. 이를 위해, 우리는 소스 인덱스 기반 재구성 (source-indexed reconstruction)을 통해 이력 붕괴 (history collapse)와 추적 가능한 학습 (traceable learning) 문제를 공동으로 해결하는 선택적 턴 메모리 프레임워크인 ECHO를 제안합니다. 구체적으로, ECHO는 완료된 각 환경 턴을 압축된 메모리 기록으로 압축하고, 이러한 기록들 중에서 선택함으로써 제한된 정책 컨텍스트를 재구성하며, 선택된 소스 인덱스를 재사용하여 긍정적인 결과에 대한 크레딧 (credit)을 성공적인 답변을 뒷받침하는 증거와 선택 행동으로 전달합니다. BrowseComp-Plus에서 ECHO는 43.4%의 홀드아웃 정확도 (held-out accuracy)를 달성하여, GRPO (28.9%)와 순환 요약 베이스라인인 SUPO (36.1%)를 능가하였으며, SUPO보다 더 적은 턴과 더 낮은 궤적 볼륨 (trajectory volume)을 사용했습니다 (Figure 1). 또한, 훈련된 정책은 Dense 및 MoE 백본 모두에서 다중 목적 질의응답 (multi-objective QA), 코드 생성 (code generation), 그리고 심층 정보 탐색 (deep information-seeking) 벤치마크 전반에 걸쳐 제로샷 일반화 (zero-shot generalization) 성능을 향상시켰습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기