APEX: 자기 진화형 LLM 에이전트를 위한 자율 정책 탐색 (Autonomous Policy Exploration)
요약
APEX는 장기적 의사 결정에 필요한 자기 진화형 LLM 에이전트가 겪는 '탐색 붕괴' 문제를 해결하기 위해 제안된 프레임워크입니다. 이 시스템은 전략 지도를 통해 명시적인 전략 공간을 구축하고, 분기 발견과 정책 선택 메커니즘을 사용하여 탐색(exploration)과 활용(exploitation)의 균형을 맞춥니다. Jericho 텍스트 어드벤처 게임 및 WebArena와 같은 다양한 환경에서 기존 모델들보다 우수한 성능을 입증했습니다.
핵심 포인트
- APEX는 자기 진화형 LLM 에이전트가 직면하는 탐색 붕괴(exploration collapse) 문제를 해결합니다.
- 명시적인 전략 공간 관리를 위해 유향 비순환 그래프 형태의 '전략 지도(strategy map)'를 사용합니다.
- 분기 발견(Fork Discovery)을 통해 증거 기반으로 미탐색 방향을 확장하고, 정책 선택(Policy Selection)으로 탐색과 활용의 균형을 유지합니다.
- Jericho 텍스트 어드벤처 게임 및 WebArena와 같은 다양한 환경에서 기존 베이스라인 모델들을 능가하는 성능을 보였습니다.
LLM 에이전트(LLM agents)는 장기적인 의사 결정(long-horizon decision making)이 필요한 상호작용 환경을 포함하여 광범위하고 복잡한 작업 전반에서 강력한 성능을 보여주었습니다. 하지만 이러한 에이전트들은 테스트 시점에 즉각적으로 학습할 수 없습니다. 자기 진화형 에이전트(Self-evolving agents)는 모델 가중치(model-weight) 업데이트를 요구하는 대신, 에피소드 전반에 걸쳐 메모리(memory)와 성찰(reflection)을 축적함으로써 이 문제를 해결합니다. 그러나 이러한 에이전트들은 종종 탐색 붕괴(exploration collapse) 문제를 겪습니다. 즉, 메모리가 커짐에 따라 행동이 익숙하고 보상이 높은 루틴에 집중되어, 더 나은 대안을 발견할 기회가 줄어드는 현상입니다. 이 문제를 해결하기 위해, 우리는 전제 조건 의존성 엣지(prerequisite dependency edges)를 가진 마일스톤(milestones)의 유향 비순환 그래프(directed acyclic graph)인 전략 지도(strategy map)를 통해 명시적인 전략 공간을 구축하고 유지하는 APEX(Autonomous Policy EXploration)를 제안합니다. APEX에서 분기 발견(Fork Discovery)은 증거에 기반한 미탐색 방향으로 지도를 확장하며, 정책 선택(Policy Selection)은 계획(planning) 과정에서 탐색(exploration)과 활용(exploitation)의 균형을 맞춥니다. 9개의 Jericho 텍스트 어드벤처 게임과 현실적인 웹 상호작용 벤치마크인 WebArena에서 평가한 결과, APEX는 모든 베이스라인(baselines) 모델을 능가했습니다. 광범위한 절제 연구(ablations)를 통해 각 구성 요소의 기여도를 검증하고 다양한 설정에서의 견고함(robustness)을 입증함으로써, 자기 진화형 에이전트의 지속적인 탐색을 위한 APEX의 효과를 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기