arXiv논문2026. 05. 12. 18:30

On-policy Distillation 해부하기: 어떤 경우에 도움이 되고, 어떤 경우에 해로운지, 그리고 그 이유

요약

본 기사는 추론 모델 훈련에 사용되는 On-policy distillation의 효과적인 적용 조건과 한계를 탐구합니다. 기존 연구들이 전체 훈련 실행에 의존하여 성능 지표를 측정하는 것과 달리, 저자들은 토큰별, 질문별, 교사 모델별로 작동할 수 있는 새로운 '훈련 불필요 진단 프레임워크'를 제안했습니다. 이 프레임워크는 이상적인 노드당 기울기를 정의하며, 최적의 증류 컨텍스트가 학생 모델의 용량과 목표 작업에 따라 달라지므로, 범용적인 해결책은 없음을 보여줍니다.

핵심 포인트

On-policy distillation은 토큰별 감독 신호를 제공하지만, 그 유효성은 사용 조건에 따라 크게 달라진다.
기존의 전체 훈련 실행 기반 평가 방식 대신, 저자들은 토큰/질문/교사 모델 수준에서 작동하는 '훈련 불필요 진단 프레임워크'를 제시했다.
최적의 증류(distillation) 컨텍스트는 학생 모델의 용량과 목표 작업에 공동으로 의존하며, 단일한 보편적 방법은 존재하지 않는다.
따라서 효과적인 증류 적용을 위해서는 작업별(per-task) 및 토큰별(per-token) 진단 분석이 필수적이다.

On-policy distillation은 추론 모델 훈련을 위해 밀도 높은(dense) 토큰별 감독 신호(supervision)를 제공합니다. 하지만 이 신호가 어떤 조건에서 유익하고 어떤 조건에서 해로운지는 아직 명확하지 않습니다. 어떤 교사 모델(teacher model)을 사용해야 하며, 자체 증류(self-distillation)의 경우 어떤 특정 컨텍스트가 감독 신호 역할을 해야 할까요? 최적의 선택이 토큰마다 달라질 수도 있을까요? 현재 이러한 질문들을 다루기 위해서는 일반적으로 비용이 많이 드는 훈련 실행(training runs)이 필요하며, 이들의 종합적인 성능 지표는 개별 토큰 수준에서의 역동성을 가립니다. 우리는 가장 높은 해상도, 즉 토큰별, 질문별, 교사 모델별로 작동하는 훈련 불필요 진단 프레임워크(training-free diagnostic framework)를 소개합니다. 우리는 이상적인 노드당 기울기(per-node gradient) 정의를 도출했습니다.

나아가, 우리는 최적의 증류(distillation) 컨텍스트가 학생 모델의 용량(capacity)과 목표 작업에 공동으로 의존하며, 단 하나의 보편적으로 효과적인 구성은 존재하지 않는다는 것을 발견했습니다. 이러한 발견들은 증류를 위해 작업별(per-task), 토큰별(per-token) 진단 분석을 사용하는 동기가 됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

On-policy Distillation 해부하기: 어떤 경우에 도움이 되고, 어떤 경우에 해로운지, 그리고 그 이유

요약

핵심 포인트

댓글