TRIAGE: 에이전트 강화학습 (Agentic Reinforcement Learning)을 위한 역할 유형별 신용 할당 (Role-Typed
요약
TRIAGE는 에이전트 강화학습에서 행동의 역할에 따라 신용을 할당하는 새로운 프레임워크를 제안합니다. 기존 GRPO의 한계를 극복하기 위해 구조화된 판사가 행동을 분류하고 세그먼트 수준의 프로세스 보상을 제공하여 학습 효율을 높입니다.
핵심 포인트
- 행동을 결정적 진전, 유용한 탐색, 퇴보 등으로 분류하여 신용 할당
- GRPO 대비 성공률 향상 및 환경 상호작용 턴 수 감소
- 단순한 조밀한 보상이 아닌 역할 유형화(Role Typing)를 통한 이득 달성
- 저분산 정책 경사(Lower-variance policy gradients) 구현 가능
에이전트 강화학습 (Agentic reinforcement learning)은 검색, 클릭, 편집, 탐색 명령, 객체 상호작용과 같이 환경에 직접적으로 작용하는 행동들에 대해 신용 (credit)을 할당할 것을 요구합니다. 표준적인 GRPO는 최종 검증기 (verifier)의 결과를 모든 행동 토큰에 대한 균일한 이득 (advantage)으로 사용합니다. 이러한 결과 신호는 유용하지만 구조적으로 불완전합니다. 즉, 실패한 롤아웃 (rollouts)에서는 유용한 탐색 (exploration)을 처벌하고, 성공한 롤아웃에서는 중복되거나 퇴보적인 행동을 강화합니다. 우리는 결과 신용에 의미론적 역할 축을 추가하는 역할 유형별 신용 할당 프레임워크인 TRIAGE를 제안합니다. 구조화된 판사 (judge)가 각 세그먼트를 결정적 진전 (decisive progress), 유용한 탐색 (useful exploration), 진전 없는 인프라 (no-progress infrastructure), 또는 퇴보 (regression)로 분류하며, 고정된 역할 조건부 규칙 (role-conditioned rule)이 이러한 라벨들을 제한된 세그먼트 수준의 프로세스 보상 (process rewards)으로 매핑합니다. 이를 통해 검증기 결과가 최적화 방향의 근원으로 유지되면서도, 결과 중심 신용 할당의 두 가지 주요 사각지대를 교정할 수 있습니다. 우리는 더 나아가 역할 조건부 신용이 역할 라벨만으로 표현 가능한 최적의 세그먼트 수준 교정임을 보여줍니다. 이는 역할 변수에 대한 세그먼트별 이득 잔차 (advantage residual)의 투영 (projection)입니다. 따라서 판사가 신뢰할 수 있는 한, 고정된 역할 상수는 이득 추정 오차를 줄여주며, 우리는 이를 저분산 정책 경사 (lower-variance policy gradients)와 연결합니다. ALFWorld, Search-QA, WebShop 전반에 걸쳐, TRIAGE는 두 가지 정책 모델에 대해 GRPO보다 성공률을 향상시켰으며, 스칼라 판사 유도 프로세스 보상 (scalar judge-derived process reward) 및 결과 감독 공유 백본 가치 베이스라인 (outcome-supervised shared-backbone value baseline) 모두를 능가합니다. 절제 연구 (Ablations) 결과, 이 이득은 단순히 조밀한 보상 (dense rewards)을 추가하는 것이 아니라 역할 유형화 (role typing)에서 온다는 것을 보여줍니다. 성공적인 궤적 내에서의 퇴보를 신뢰성 있게 탐지하는 것이 지배적인 기여 요인인 반면, 탐색 신용은 일관된 부차적 이득을 제공합니다. 완료된 ALFWorld 및 WebShop 롤아웃에서 TRIAGE는 GRPO 대비 환경 직면 턴 (environment-facing turns)을 각각 추가로 $10.4%$ 및 $14.8%$ 감소시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기