ECHO: 에이전트 강화학습 (RL)에서 선택적 턴 메모리를 통한 가지치기 기반 행동 및 추적 기반 학습

장기적 관점의 언어 에이전트 (Long-horizon language agents)는 제한된 컨텍스트 창 (context windows) 내에서 도구와 반복적으로 상호작용하고, 증거를 축적하며, 의사결정을 내려야 합니다. 기존의 컨텍스트 관리 방법들은 먼 과거의 이력을 잘라내거나 (truncating), 과거의 턴들을 요약본으로 접어 넣거나 (folding), 압축된 메모리 상태를 선택함으로써 이러한 롤아웃 (rollouts)을 가능하게 합니다. 그러나 이러한 돌파구들은 서로 결합된 두 가지 한계를 야기합니다. 첫째, 턴의 수가 증가함에 따라 과거의 관찰값들이 점진적으로 제거되거나 압축된 상태로 붕괴되어, 정책 (policy)이 세밀한 증거를 재사용하기가 더 어려워집니다. 둘째, 원래의 턴들이 더 이상 소스 주소 지정이 불가능해지면, 결과 기반 강화학습 (outcome-based RL)은 성공적인 최종 답변을 뒷받침했던 증거와 정책 업데이트를 정렬할 수 있는 명시적인 경로를 잃게 됩니다. 이를 위해, 우리는 소스 인덱스 기반 재구성 (source-indexed reconstruction)을 통해 이력 붕괴 (history collapse)와 추적 가능한 학습 (traceable learning) 문제를 공동으로 해결하는 선택적 턴 메모리 프레임워크인 ECHO를 제안합니다. 구체적으로, ECHO는 완료된 각 환경 턴을 압축된 메모리 기록으로 압축하고, 이러한 기록들 중에서 선택함으로써 제한된 정책 컨텍스트를 재구성하며, 선택된 소스 인덱스를 재사용하여 긍정적인 결과에 대한 크레딧 (credit)을 성공적인 답변을 뒷받침하는 증거와 선택 행동으로 전달합니다. BrowseComp-Plus에서 ECHO는 43.4%의 홀드아웃 정확도 (held-out accuracy)를 달성하여, GRPO (28.9%)와 순환 요약 베이스라인인 SUPO (36.1%)를 능가하였으며, SUPO보다 더 적은 턴과 더 낮은 궤적 볼륨 (trajectory volume)을 사용했습니다 (Figure 1). 또한, 훈련된 정책은 Dense 및 MoE 백본 모두에서 다중 목적 질의응답 (multi-objective QA), 코드 생성 (code generation), 그리고 심층 정보 탐색 (deep information-seeking) 벤치마크 전반에 걸쳐 제로샷 일반화 (zero-shot generalization) 성능을 향상시켰습니다.

Insights

ECHO: 에이전트 강화학습 (RL)에서 선택적 턴 메모리를 통한 가지치기 기반 행동 및 추적 기반 학습

요약

핵심 포인트

댓글

SeKV: 긴 컨텍스트 LLM 추론을 위한 계층적 시맨틱 메모리 기반 해상도 적응형 KV 캐시

데이터 이동의 4제곱근 복잡도

UniSAE: 이산적 음소 후험 확률도(DPPG) 모델링을 통한 화자, 감정 및 저수준 콘텐츠의 통합 음성 속성 편집

ComplianceGate: 규제 산업 내 추론을 위한 분류기 게이트 방식의 다계층 LLM 라우팅

데이터 이동의 4제곱근 복잡도

UniSAE: 이산적 음소 후험 확률도(DPPG) 모델링을 통한 화자, 감정 및 저수준 콘텐츠의 통합 음성 속성 편집

ComplianceGate: 규제 산업 내 추론을 위한 분류기 게이트 방식의 다계층 LLM 라우팅