arXiv논문2026. 05. 08. 16:40

Teaching Thinking Models to Reason with Tools: A Full-Pipeline Recipe for

요약

본 논문은 도구 통합 추론(Tool-integrated reasoning, TIR)을 통해 기존의 텍스트 전용 모델이 가진 한계를 극복하고 사고 모델에 자연스러운 도구 사용 능력을 주입하는 종합적인 방법론을 제시합니다. 연구진은 SFT 단계에서 교사 궤적의 학습 가능성을 고려해야 하며, 도구 사용 비율 제어를 통해 핵심 추론 능력의 망각을 방지할 수 있음을 강조합니다. 또한, 최적화 목표를 손실 함수 대신 pass@k 및 응답 길이로 설정하고, 검증 가능한 보상(RLVR) 단계를 결합하여 오픈소스 모델에 최고 수준의 성능 향상을 달성하는 레시피를 소개했습니다.

핵심 포인트

도구 통합 추론(TIR)은 텍스트 전용 추론을 넘어선 사고 모델 확장을 위한 핵심 방법론이다.
SFT 단계에서는 도구 강화 솔루션에 적합한 문제 유형을 우선시하고, 도구 사용 비율 제어를 통해 기본 추론 능력의 망각을 방지해야 한다.
TIR SFT의 이득 극대화를 위해 최적화 목표를 손실 함수 대신 pass@k 및 응답 길이로 설정하는 것이 효과적이다.
SFT 초기화와 모드 붕괴 안전 장치 위에 구축된 검증 가능한 보상(RLVR) 단계가 단순하지만 강력한 성능 향상을 가져온다.

Tool-integrated reasoning (TIR) 은 텍스트 전용 추론의 한계를 넘어선 사고 모델의 확장을 위한 직접적인 방법입니다. 역설적으로, 도구 활성화 평가는 강력한 사고 모델이 실제 도구 호출을 거의 하지 않더라도 추론 성능을 저하시킬 수 있습니다. 본 논문에서는 도구 활용 능력을 포기하지 않으면서 강력한 사고 모델에 자연스러운 도구 사용 행동을 주입하는 방법을 조사하고, 종합적인 TIR 레시피를 제시합니다. 우리는 다음 사항을 강조합니다: (i) TIR 지도 학습 미세 조정 (SFT) 의 효과성은 교사 궤적의 학습 가능성에 달려 있으며, 이는 도구 강화 솔루션에 본질적으로 적합한 문제를 우선시해야 합니다; (ii) 도구 사용 궤적의 비율을 제어하면 텍스트 전용 추론 능력의 재앙적인 망각을 완화할 수 있습니다; (iii) 훈련 손실 대신 pass@k 와 응답 길이를 최적화하면 TIR SFT 이득을 극대화하고 강화 학습 (RL) 탐색을 위한 여유 공간을 보존할 수 있습니다; (iv) 적절한 SFT 초기화와 모드 붕괴에 대한 명시적인 안전 장치 위에 구축된 검증 가능한 보상 (RLVR) 단계는 단순하지만 놀라울 정도로 효과적인 해결책입니다. Qwen3 사고 모델의 4B 및 30B 규모에 적용될 때, 우리의 레시피는 오픈소스 모델 중 다양한 벤치마크에서 최상위 성능을 달성하는 모델을 제공하며, 예를 들어 AIME 2025 에서 4B 와 30B 는 각각 96.7% 와 99.2% 를 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Teaching Thinking Models to Reason with Tools: A Full-Pipeline Recipe for

요약

핵심 포인트

댓글