본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 12. 02:47

SOD: 소형 언어 모델 에이전트를 위한 단계별 온정책 증류 (Step-wise On-policy Distillation for Small

요약

소형 언어 모델에 도구 통합 추론(TIR)을 적용하는 것은 어려운데, 기존의 강화학습 방법들은 보상 신호가 희소하여 한계가 있습니다. 최근 주목받는 온정책 증류(OPD) 기법도 TIR에 적용할 경우, 잘못된 도구 호출이 연쇄적인 오류를 일으켜 학생-교사 발산을 야기하고 교사의 지도 효과를 무력화하는 치명적인 실패 모드를 보입니다.

핵심 포인트

  • 소형 언어 모델의 도구 통합 추론(TIR)은 장기 상호작용 및 모델 용량 문제로 인해 확장성이 낮다.
  • 전통적인 강화학습 방법(예: 그룹 상대 정책 최적화)은 보상 신호가 희소하여 효율적이지 않다.
  • 온정책 증류(OPD)는 토큰 수준의 밀도 높은 지도를 제공하지만, TIR 환경에서는 잘못된 도구 호출로 인해 연쇄적인 오류를 일으키는 치명적인 실패 모드를 보인다.
  • 이러한 실패 모드는 학생-교사 발산을 점진적으로 증폭시켜 교사의 지도 효과를 무력화시킨다.

도구 통합 추론(Tool-integrated reasoning, TIR)은 장기적인 도구 상호작용의 불안정성과 제한된 모델 용량 때문에 소형 언어 모델에 확장하기 어렵습니다. 그룹 상대 정책 최적화(group relative policy optimization)와 같은 강화학습(RL) 방법들은 희소한 결과 수준의 보상만을 제공합니다. 최근에는 온정책 증류(on-policy distillation, OPD)가 교사(teacher)가 학생(student)이 생성한 궤적에서 밀도 높은 토큰 수준의 지도(supervision)를 공급함으로써 인기를 얻고 있습니다. 하지만 우리의 실험에 따르면, OPD를 TIR에 적용하는 것은 치명적인 실패 모드(critical failure mode)로 이어집니다: 잘못된 도구 호출이 후속 추론 단계 전반으로 연쇄적으로 발생하여 학생-교사 발산(student-teacher divergence)을 점진적으로 증폭시키고 교사의 토큰 수준 지도를 무력화시킵니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0