장기적 에이전트 강화학습 (Long-Horizon Agentic Reinforcement Learning)을 위한 그룹-그래프 정책 최적화
요약
장기적 에이전트 강화학습의 보상 희소성 문제를 해결하기 위해 새로운 알고리즘인 G2PO를 제안합니다. 선형 궤적을 전역 상태 전이 그래프로 변환하여 신용 할당 문제를 개선하고 샘플링 분산을 줄입니다.
핵심 포인트
- 선형 궤적을 전역 상태 전이 그래프로 변환하여 상태 가치 추정의 분산 감소
- 에지 중심의 어드밴티지 추정 전략을 통한 정교한 신용 할당 구현
- WebShop, ALFWorld 등 벤치마크에서 GRPO 대비 최대 22.2% 성공률 향상
그룹 기반 강화학습 (Group-based Reinforcement Learning (RL))은 에이전트 시나리오에서 대규모 언어 모델 (Large Language Models (LLMs))의 성능을 크게 향상시켰습니다. 더 세밀한 정책 업데이트를 달성하기 위해, 최근의 에이전트 RL 프레임워크는 궤적 수준 (trajectory-level)에서 단계 수준 (step-level) 학습으로 전환되었습니다. 그러나 장기적 에이전트 RL (long-horizon agentic RL)은 피드백이 수십 번의 상호작용 단계 동안 지연되는 경우가 많아 심각한 보상 희소성 (reward sparsity) 및 지연 문제를 겪습니다. 기존의 단계 수준 프레임워크가 학습의 입도 (granularity)를 정교화하고는 있지만, 이들의 신용 할당 (credit assignment)은 여전히 거칠며 에이전트의 탐색을 고립된 선형 궤적으로 취급합니다. 이러한 지나치게 단순화된 관점은 상태 전이 (state transitions)의 내재적인 그래프 구조를 무시하며, 이는 높은 분산의 상태 가치 추정 (state-value estimation)과 근시안적이고 국소적인 신용 할당으로 이어집니다. 이러한 결정적인 병목 현상을 극복하기 위해, 우리는 다회차 에이전트 작업에 맞춤화된 새로운 그룹 기반 RL 알고리즘인 그룹-그래프 정책 최적화 (Group-Graph Policy Optimization (G2PO))를 제안합니다. G2PO는 선형 상호작용 궤적을 전역 상태 전이 그래프 (global state-transition graph)로 명시적으로 변환합니다. 서로 다른 궤적에 걸쳐 동일한 관측값 (observations)을 집계함으로써, 우리는 샘플링 분산과 궤적 의존적 편향 (trajectory-dependent bias)을 줄이는 그룹 집계 상태 가치 추정 (group-aggregation state-value estimation)을 도입합니다. 나아가, 우리는 에이전트의 행동을 상태 노드 간의 전이로 재정의하고 엣지 중심의 어드밴티지 추정 (edge-centric advantage estimation) 전략을 제안합니다. 전체 그래프에 걸쳐 시간차 (Temporal Difference (TD)) 오차를 전역적으로 표준화함으로써, G2PO는 절대적인 작업 진행을 이끄는 핵심적인 전이를 명시적으로 식별하고 우선순위를 지정합니다. 대표적인 장기적 벤치마크인 WebShop, ALFWorld, AppWorld에 대한 광범위한 실험을 통해, G2PO가 최신 프롬프트 기반 및 RL 베이스라인 모델들을 실질적으로 능가하며, GRPO 대비 최대 22.2%의 놀라운 성공률 향상을 달성함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기