APPO: 에이전트 절차적 정책 최적화 (Agentic Procedural Policy Optimization)
요약
LLM 에이전트의 다회차 도구 사용 능력을 향상시키기 위한 새로운 강화학습 방법론인 APPO를 제안합니다. 기존의 거친 휴리스틱 단위 대신 시퀀스 내 미세한 결정 지점을 식별하여 신용 할당 문제를 해결합니다.
핵심 포인트
- 미세한 결정 지점(fine-grained decision points) 기반의 신용 할당 방식 제안
- 토큰 불확실성과 정책 유도 가능성을 결합한 Branching Score 도입
- 절차 수준의 어드밴티지 스케일링을 통한 효율적인 신용 분배
- 13개 벤치마크 실험 결과 기존 베이스라인 대비 성능 대폭 개선
최근 에이전트 기반 강화학습 (Reinforcement Learning, RL)의 발전은 대규모 언어 모델 (Large Language Model, LLM) 에이전트의 다회차 도구 사용 (multi-turn tool-use) 능력을 실질적으로 향상시켰습니다. 그러나 기존의 대부분의 방법론은 도구 호출 (tool-call) 경계나 고정된 워크플로우와 같은 거친 휴리스틱 단위 (coarse heuristic units)에 대해 신용 할당 (credit assignment)을 수행하므로, 어떤 중간 결정이 후속 결과에 영향을 미치는지 식별하기 어렵게 만듭니다. 본 연구에서 우리는 두 가지 관점, 즉 extit{어디에서 분기(branch)할 것인가와 분기 후 신용을 어떻게 할당할 것인가}의 관점에서 에이전트 기반 RL을 연구합니다. 우리의 예비 분석에 따르면, 영향력 있는 결정 지점들은 도구 호출에 집중되기보다는 생성된 시퀀스 전반에 걸쳐 넓게 분포되어 있으며, 토큰 엔트로피 (token entropy)만으로는 최종 결과에 미치는 영향을 신뢰성 있게 반영하지 못한다는 것을 보여줍니다. 이러한 관찰 결과에 착안하여, 우리는 분기와 신용 할당을 거친 상호작용 단위에서 시퀀스 내의 미세한 결정 지점 (fine-grained decision points)으로 전환하는 extbf{Agentic Procedural Policy Optimization (APPO)}를 제안합니다. APPO는 토큰 불확실성 (token uncertainty)과 후속 연속성에 대한 정책 유도 가능성 이득 (policy-induced likelihood gains)을 결합한 분기 점수 (Branching Score)를 사용하여 분기 위치를 선택하며, 이를 통해 가짜 고엔트로피 위치를 걸러내는 동시에 더욱 표적화된 탐색 (exploration)을 가능하게 합니다. 또한, 분기된 롤아웃 (rollouts) 전체에 걸쳐 신용을 더 잘 분배하기 위해 절차 수준의 어드밴티지 스케일링 (procedure-level advantage scaling)을 도입합니다. 13개의 벤치마크에 대한 실험 결과, APPO는 효율적인 도구 호출을 유지하고 행동 해석 가능성 (behavior interpretability)을 보존하면서도 강력한 에이전트 기반 RL 베이스라인들을 거의 4점 차이로 일관되게 개선함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기