arXiv논문2026. 05. 12. 02:47

SOD: 소형 언어 모델 에이전트를 위한 단계별 온정책 증류 (Step-wise On-policy Distillation for Small

요약

소형 언어 모델에 도구 통합 추론(TIR)을 적용하는 것은 어려운데, 기존의 강화학습 방법들은 보상 신호가 희소하여 한계가 있습니다. 최근 주목받는 온정책 증류(OPD) 기법도 TIR에 적용할 경우, 잘못된 도구 호출이 연쇄적인 오류를 일으켜 학생-교사 발산을 야기하고 교사의 지도 효과를 무력화하는 치명적인 실패 모드를 보입니다.

핵심 포인트

소형 언어 모델의 도구 통합 추론(TIR)은 장기 상호작용 및 모델 용량 문제로 인해 확장성이 낮다.
전통적인 강화학습 방법(예: 그룹 상대 정책 최적화)은 보상 신호가 희소하여 효율적이지 않다.
온정책 증류(OPD)는 토큰 수준의 밀도 높은 지도를 제공하지만, TIR 환경에서는 잘못된 도구 호출로 인해 연쇄적인 오류를 일으키는 치명적인 실패 모드를 보인다.
이러한 실패 모드는 학생-교사 발산을 점진적으로 증폭시켜 교사의 지도 효과를 무력화시킨다.

도구 통합 추론(Tool-integrated reasoning, TIR)은 장기적인 도구 상호작용의 불안정성과 제한된 모델 용량 때문에 소형 언어 모델에 확장하기 어렵습니다. 그룹 상대 정책 최적화(group relative policy optimization)와 같은 강화학습(RL) 방법들은 희소한 결과 수준의 보상만을 제공합니다. 최근에는 온정책 증류(on-policy distillation, OPD)가 교사(teacher)가 학생(student)이 생성한 궤적에서 밀도 높은 토큰 수준의 지도(supervision)를 공급함으로써 인기를 얻고 있습니다. 하지만 우리의 실험에 따르면, OPD를 TIR에 적용하는 것은 치명적인 실패 모드(critical failure mode)로 이어집니다: 잘못된 도구 호출이 후속 추론 단계 전반으로 연쇄적으로 발생하여 학생-교사 발산(student-teacher divergence)을 점진적으로 증폭시키고 교사의 토큰 수준 지도를 무력화시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

SOD: 소형 언어 모델 에이전트를 위한 단계별 온정책 증류 (Step-wise On-policy Distillation for Small

요약

핵심 포인트

댓글