TRIAGE: 에이전트 강화학습 (Agentic Reinforcement Learning)을 위한 역할 유형별 신용 할당 (Role-Typed

에이전트 강화학습 (Agentic reinforcement learning)은 검색, 클릭, 편집, 탐색 명령, 객체 상호작용과 같이 환경에 직접적으로 작용하는 행동들에 대해 신용 (credit)을 할당할 것을 요구합니다. 표준적인 GRPO는 최종 검증기 (verifier)의 결과를 모든 행동 토큰에 대한 균일한 이득 (advantage)으로 사용합니다. 이러한 결과 신호는 유용하지만 구조적으로 불완전합니다. 즉, 실패한 롤아웃 (rollouts)에서는 유용한 탐색 (exploration)을 처벌하고, 성공한 롤아웃에서는 중복되거나 퇴보적인 행동을 강화합니다. 우리는 결과 신용에 의미론적 역할 축을 추가하는 역할 유형별 신용 할당 프레임워크인 TRIAGE를 제안합니다. 구조화된 판사 (judge)가 각 세그먼트를 결정적 진전 (decisive progress), 유용한 탐색 (useful exploration), 진전 없는 인프라 (no-progress infrastructure), 또는 퇴보 (regression)로 분류하며, 고정된 역할 조건부 규칙 (role-conditioned rule)이 이러한 라벨들을 제한된 세그먼트 수준의 프로세스 보상 (process rewards)으로 매핑합니다. 이를 통해 검증기 결과가 최적화 방향의 근원으로 유지되면서도, 결과 중심 신용 할당의 두 가지 주요 사각지대를 교정할 수 있습니다. 우리는 더 나아가 역할 조건부 신용이 역할 라벨만으로 표현 가능한 최적의 세그먼트 수준 교정임을 보여줍니다. 이는 역할 변수에 대한 세그먼트별 이득 잔차 (advantage residual)의 투영 (projection)입니다. 따라서 판사가 신뢰할 수 있는 한, 고정된 역할 상수는 이득 추정 오차를 줄여주며, 우리는 이를 저분산 정책 경사 (lower-variance policy gradients)와 연결합니다. ALFWorld, Search-QA, WebShop 전반에 걸쳐, TRIAGE는 두 가지 정책 모델에 대해 GRPO보다 성공률을 향상시켰으며, 스칼라 판사 유도 프로세스 보상 (scalar judge-derived process reward) 및 결과 감독 공유 백본 가치 베이스라인 (outcome-supervised shared-backbone value baseline) 모두를 능가합니다. 절제 연구 (Ablations) 결과, 이 이득은 단순히 조밀한 보상 (dense rewards)을 추가하는 것이 아니라 역할 유형화 (role typing)에서 온다는 것을 보여줍니다. 성공적인 궤적 내에서의 퇴보를 신뢰성 있게 탐지하는 것이 지배적인 기여 요인인 반면, 탐색 신용은 일관된 부차적 이득을 제공합니다. 완료된 ALFWorld 및 WebShop 롤아웃에서 TRIAGE는 GRPO 대비 환경 직면 턴 (environment-facing turns)을 각각 추가로 $10.4%$ 및 $14.8%$ 감소시킵니다.

Insights

TRIAGE: 에이전트 강화학습 (Agentic Reinforcement Learning)을 위한 역할 유형별 신용 할당 (Role-Typed

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법