RODS: 멀티턴 도구 사용 에이전트를 위한 보상 기반 온라인 데이터 합성
요약
멀티턴 도구 사용 에이전트 학습 시 발생하는 데이터 고갈 문제를 해결하기 위해 RODS를 제안합니다. RODS는 보상 분산을 활용해 에이전트의 능력 경계에 있는 샘플을 식별하고, 이를 바탕으로 새로운 데이터를 동적으로 합성하여 학습 효율을 극대화합니다.
핵심 포인트
- 멀티턴 도구 사용 RL 학습 시 정적 데이터셋의 정보 고갈 문제 해결
- 보상 분산을 활용해 에이전트의 능력 경계 샘플을 식별하는 RODS 제안
- 기술 정렬 리샘플링을 통해 구조적 복잡성이 일치하는 데이터 합성
- 기존 오프라인 파이프라인 대비 약 20배 적은 궤적으로 대등한 성능 달성
멀티턴 도구 사용 (Multi-turn tool-use) 강화학습 (RL)은 정적 데이터셋 내에서 정보가 풍부한 샘플이 빠르게 고갈되는 문제로 인해 병목 현상을 겪습니다. 우리는 GRPO의 그래디언트 (gradient) 신호가 Popoviciu 상한 (Popoviciu upper bound)의 결과로 인해 가장 높은 롤아웃 보상 분산 (rollout reward variance)을 가진 작업에 집중된다는 점을 관찰했습니다. 결과적으로, 성공과 실패가 대략 균형을 이루는 에이전트의 능력 경계 (capability boundary) 근처의 샘플들이 불균형적으로 큰 정책 그래디언트 (policy gradients)를 기여합니다. 학습이 진행됨에 따라 이 경계는 지속적으로 이동하며, 이는 정적 데이터셋 내의 정보가 풍부한 샘플 풀을 점진적으로 고갈시킵니다. 우리는 이러한 고갈 문제를 해결하기 위해 RODS (Reward-driven Online Data Synthesis)를 제안합니다. RODS는 학습을 위해 이미 계산된 롤아웃 외에 추가적인 추론이 필요 없는, 실용적이고 비용이 들지 않는 경계 탐지기 (boundary detector)로서 진행 보상 분산 (progress reward variance)을 재활용함으로써 RL 학습과 데이터 생성 사이의 루프를 완성합니다. RODS는 이러한 경계 샘플들을 지속적으로 식별하고, 기술 정렬 리샘플링 파이프라인 (skill-aligned resampling pipeline)을 통해 해당 샘플의 구조적 복잡성(예: API 토폴로지 및 의존성 깊이)과 일치하는 새로운 멀티턴 변형을 합성하며, 정책과 함께 공동 진화하는 동적 리플레이 버퍼 (dynamic replay buffer)를 관리합니다. 400개의 인간 시드 (human seeds)에서 시작하여 약 800개의 샘플로 구성된 활성 학습 풀을 유지함으로써, RODS는 약 20배 적은 궤적 (trajectories)만으로도 17K 샘플 오프라인 파이프라인과 대등한 성능을 달성하며, 통제된 환경에서 고정 데이터 RL 및 환경 증강 (environment augmentation)보다 향상된 성능을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기