arXiv논문2026. 06. 10. 11:36

TRACE: 효율적인 에이전트 강화학습 (Agentic Reinforcement Learning)을 위한 통합 롤아웃 예산 할당 프레임워크

요약

TRACE는 에이전트 강화학습의 효율성을 높이기 위해 롤아웃 예산을 프롬프트와 턴 단위 접두사에 동적으로 할당하는 프레임워크입니다. 트리 구조의 롤아웃을 통해 보상 대비를 강화하고 정책 업데이트 신호를 증폭시켜 모델의 추론 성능을 향상시킵니다.

핵심 포인트

턴 수준의 접두사 정보를 활용한 트리 구조 롤아웃 형성
성공 확률 예측기를 통한 적응형 예산 할당 메커니즘
결과 전용 보상의 한계를 극복하고 보상 대비 강화
Qwen3-14B 벤치마크에서 샘플링 비용 대비 정확도 향상

검증 가능한 보상 (Verifiable Rewards, RLVR)을 활용한 강화학습 (Reinforcement Learning)은 대규모 언어 모델 (Large Language Models)의 추론 및 에이전트 행동을 향상시키는 유망한 접근 방식입니다. 그러나 롤아웃 집약적인 정책 최적화 (Policy Optimization)는 종종 불충분한 보상 대비 (Reward Contrast)로 인해 제한을 받습니다. 이는 너무 단순하거나 복잡한 프롬프트가 낮은 분산의 피드백을 생성할 때, 그리고 결과 전용 보상 (Outcome-only Rewards)이 다회차 롤아웃 (Multi-turn Rollout) 내의 모든 결정에 동일한 최종 평가를 부여할 때 발생합니다. 과거의 노력들은 가용 롤아웃 자원을 유망한 프롬프트에 할당하는 데 집중해 왔으나, 이는 프롬프트 수준에서의 샘플 정보성 (Sample Informativeness)만을 활용할 뿐, 동일한 롤아웃 내의 턴(turn) 간 접두사 수준 (Prefix-level) 정보성의 변화는 간과합니다. 본 연구는 ReAct 스타일의 '사고-행동-관찰 (Thought-Action-Observation)' 각 턴을 의미적으로 구별되는 노드로 모델링함으로써 다회차 에이전트 강화학습 (Agentic RL)을 목표로 합니다. 이를 통해 예산 할당을 프롬프트 루트 (Prompt Roots)에서 더 나아가 추가적인 연속성을 가진 턴 수준의 접두사 (Turn-level Prefixes)로 확장할 수 있으며, 이는 자연스럽게 트리 구조의 롤아웃 (Tree-structured Rollouts)을 형성합니다. 우리는 고정된 샘플링 예산 내에서 보상 대비를 강화하는 통합 롤아웃 할당 프레임워크인 TRACE (Tree Rollout Allocation for Contrastive Exploration)를 소개합니다. 기술적으로, TRACE는 혼합된 최종 보상을 생성할 가능성이 가장 높은 프롬프트 루트와 중간 접두사 모두에 롤아웃 예산을 할당합니다. 공유된 일반화 가능한 예측기 (Generalizable Predictor)는 이러한 앵커 (Anchors) 지점에서 접두사 이력 (Prefix Histories)으로부터 조건부 성공 확률을 추정하여 이 할당을 안내합니다. 결과적으로 생성된 적응형 트리 구조는 결과 전용 피드백을 풍부하게 하고 정책 업데이트 (Policy-update) 신호를 증폭시킵니다. 실증적으로, TRACE는 전형적인 에이전트 벤치마크에서 경쟁력 있는 성능과 효율성 이득을 달성했습니다. 예를 들어, 동일한 샘플링 비용에서 Qwen3-14B Multi-Hop QA의 평균 정확도를 경쟁 베이스라인 대비 2.8포인트 향상시켰습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TRACE: 효율적인 에이전트 강화학습 (Agentic Reinforcement Learning)을 위한 통합 롤아웃 예산 할당 프레임워크

요약

핵심 포인트

댓글