arXiv논문2026. 06. 03. 11:31

합성 및 보상 — 실시간 환경에서의 다단계 도구 사용을 위한 강화학습 (Reinforcement Learning)

요약

LLM의 다단계 도구 호출 능력을 향상시키기 위한 강화학습 프레임워크 PROVE를 제안합니다. MCP 서버 라이브러리, 자동화된 데이터 합성 파이프라인, 그리고 외부 모델 없이 작동하는 프로그래밍 방식 보상 체계를 통해 모델의 도구 사용 성능을 크게 개선했습니다.

핵심 포인트

상태 격리 기술을 통한 실시간 실행 RL 훈련 환경 구축
실제 서버 상태를 반영한 검증된 다회차 도구 호출 데이터 합성
외부 판사 모델이 필요 없는 다중 구성 프로그래밍 방식 보상 도입
Qwen, Granite 모델 대상 훈련 시 벤치마크 성능 대폭 향상

LLM (Large Language Models)이 다단계 도구 호출 (multi-step tool calls)을 조율하도록 훈련하는 것은 세 가지 결합된 장애물로 인해 제약을 받고 있습니다: 현실적인 상태 유지 실행 환경 (stateful execution environments)을 구축하는 데 비용이 많이 들고, 합성된 훈련 쿼리 (synthetic training queries)가 서버의 실제 상태와 동떨어져 있는 경우가 많으며 (이로 인해 생성된 도구 호출이 실행에 실패함), 회상 기반의 RL (Reinforcement Learning) 보상이 장황한 도구 호출 패턴을 조장한다는 점입니다. 우리는 세 가지 기여를 포함하는 프레임워크인 PROVE (Programmatic Rewards On Verified Environments)를 제시합니다: (1) 세션 범위의 상태 격리 (session-scoped state isolation)를 통해 실시간 실행 RL 훈련을 가능하게 하는, 343개의 도구를 노출하는 20개의 상태 유지 MCP (Model Context Protocol) 서버 라이브러리; (2) 실시간 샘플링된 서버 상태에 기반하여 의존성 그래프 가이드 대화 시뮬레이션 (dependency-graph-guided conversation simulation)을 통해 이러한 서버들에 대해 검증된 다회차 도구 호출 궤적 (multi-turn tool-call trajectories)을 생성하는 자동화된 데이터 합성 파이프라인으로, 이를 통해 생성된 모든 쿼리는 실제로 존재하는 엔티티 (entities)를 참조합니다; (3) 외부 판사 모델 (external judge model)이 필요 없는 다중 구성 프로그래밍 방식 보상(multi-component programmatic reward) — 단계별 유효성 점수 산정 (graduated validity scoring), 의존성 인식 커버리지 (dependency-aware coverage), 복잡도에 따른 호출 예산이 적용된 적응형 효율성 페널티 (adaptive efficiency penalty), 도구 이름 신호 (tool-name signal), 그리고 인자-값 매칭 보너스 (argument-value matching bonus) — 입니다. 우리는 동일한 보상 하이퍼파라미터와 약 13K개의 훈련 예시를 사용하여 GRPO (Group Relative Policy Optimization)로 네 가지 모델 (Qwen3-4B, Qwen3-8B, Qwen2.5-7B, Granite-4.1-8B)을 훈련했습니다; 학습률 (learning rate)만이 3점 스윕 (three-point sweep)을 통해 모델 제품군별로 조정되었습니다. BFCL Multi-Turn, tau2-bench, 그리고 T-Eval에서 PROVE는 각각 최대 +10.2, +6.8, +6.5 포인트의 향상을 가져왔으며, 이는 컴팩트한 프로그래밍 방식 보상이 두 모델 제품군에 걸쳐 다단계 도구 조율 (multi-step tool orchestration)에서 일관된 이득을 제공함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

합성 및 보상 — 실시간 환경에서의 다단계 도구 사용을 위한 강화학습 (Reinforcement Learning)

요약

핵심 포인트

댓글