arXiv논문2026. 06. 15. 11:20

CacheRL: 캐시된 롤아웃(Cached Rollouts) 및 하이브리드 보상(Hybrid Reward)을 통한 다회차 도구 호출

요약

CacheRL은 소형 에이전트 모델이 다단계 도구 호출 작업에서 높은 정확도를 달성하도록 돕는 새로운 학습 시스템입니다. 캐시된 롤아웃과 하이브리드 보상 방식을 통해 연산량을 100배 절감하면서도 GPT-5에 근접하는 성능을 구현했습니다.

핵심 포인트

실시간 도구 실행 없이 강화학습이 가능한 CacheAgentLoop 도입
추론 흔적을 활용한 하이브리드 사고 궤적 파이프라인 구축
캐시 환경의 한계를 극복하는 캐시 단계 인식 보상 설계
Qwen3-4B-Thinking 모델의 검증 보상을 0.43에서 0.78로 향상

우리는 다단계 도구 호출 (tool-calling) 작업에서 92%의 프로세스 정확도를 달성하는 소형 에이전트 파운데이션 모델 (agent foundation models) 학습 시스템인 CacheRL을 선보입니다. 이는 GPT-5의 94%에 근접하는 성능이면서도 연산량 (compute)은 100배 적게 소모합니다. 우리의 접근 방식은 실제 에이전트 학습에서의 세 가지 과제를 해결합니다: 대규모 모델로부터 도구 호출 지식을 확장하여 전이하는 것, 비용이 많이 드는 실시간 도구 실행 (live tool execution) 없이 강화학습 (reinforcement learning)을 가능하게 하는 것, 그리고 노이즈가 있는 캐시된 환경 (cached environments)으로부터 강건하게 학습하는 것입니다. CacheRL은 세 가지 핵심 혁신을 도입합니다. 첫째, 하이브리드 사고 궤적 (hybrid thinking trajectory) 파이프라인은 LLM이 생성한 추론 흔적 (reasoning traces)으로 에이전트 궤적을 증강하여, 모델에게 어떤 도구를 호출해야 하는지뿐만 아니라 왜 호출해야 하는지도 가르치는 학습 예시를 생성합니다. 둘째, CacheAgentLoop는 토큰 수준 마스킹 (token-level masking)을 사용하여 궤적의 충실도 (fidelity)를 유지하면서, 3단계 퍼지 캐시 (three-tier fuzzy cache)를 통해 실시간 실행 비용을 제거합니다. 셋째, 캐시 단계 인식 보상 (cache-tier-aware reward)은 캐시로 인한 한계 때문에 모델이 불이익을 받는 것을 방지하기 위해 답변 품질 가중치를 동적으로 조정합니다. 반복적인 지도 미세 조정 (supervised fine-tuning, SFT) 및 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO)를 통해, CacheRL은 Qwen3-4B-Thinking의 검증 보상 (validation reward)을 0.43에서 0.78로 향상시켰습니다. 공개된 에이전트 도구 호출 벤치마크에서 우리 모델은 GPT-5와 같은 프런티어 모델 (frontier models)에 필적하는 성능을 달성했습니다. 어블레이션 연구 (Ablation studies)에 따르면 지식 전이 (knowledge transfer)를 제거하면 성능이 41% 감소하는 반면, 캐시 인식 보상은 17%의 성능 향상에 기여합니다. 흥미롭게도, 강화학습은 학습 안정성을 향상시키지만 강력한 지도 미세 조정 이상의 제한적인 이득만을 제공하며, 이는 실용적인 소형 에이전트 모델을 구축하는 데 있어 복잡한 최적화 방법보다 데이터 품질과 보상 설계가 더 중요한 역할을 한다는 것을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

CacheRL: 캐시된 롤아웃(Cached Rollouts) 및 하이브리드 보상(Hybrid Reward)을 통한 다회차 도구 호출

요약

핵심 포인트

댓글