arXiv논문2026. 05. 14. 13:25

Prefix Teach, Suffix Fade: 강력한 모델에서 약한 모델로의 On-Policy Distillation에서의 국소적 학습

요약

본 연구는 강력한 Teacher 모델의 피드백을 사용하여 약한 Student 모델을 학습시키는 On-policy distillation(OPD) 과정에서, 전체 응답 시퀀스를 균일하게 감독하는 기존 가정이 항상 유효하지 않음을 보여줍니다. 특히 strong-to-weak 설정에서는 궤적 후반부 세그먼트가 Teacher-Student 이점을 보일지라도, Student의 학습 우선순위를 정할 국소적 대비(local contrast)가 부족하여 '국소적 학습 가능성 붕괴' 현상이 발생합니다. 이를 해결하기 위해, 본 연구는 Teacher의 마진을 측정하고 BIC 스타일의 하향 변화점 감지를 통해 조밀한 OPD 감독을 적절히 중단하는 '궤적 특화 해제 규칙(trajectory-specific release rule)'을 제안하며, 이는 다양한 벤치마크에서 기존 방식보다 우수한 성능과 Out-of-domain 능력 보존 능력을 입증했습니다.

핵심 포인트

strong-to-weak On-policy distillation (OPD) 과정에서는 전체 응답 시퀀스에 걸쳐 균일한 감독이 필요하지 않다.
후반부 궤적 세그먼트에서 발생하는 '국소적 학습 가능성 붕괴(local teachability collapse)' 현상을 정의하고 그 원인을 분석했다.
제안된 '궤적 특화 해제 규칙'은 Teacher의 마진을 측정하고 BIC 스타일 변화점 감지를 통해 OPD 감독을 동적으로 중단하여 효율성을 높인다.
이 방법론은 Qwen3 모델 제품군 기반 실험에서 다양한 인-도메인 및 아웃-오브-도메인 벤치마크에서 기존 전체 궤적 OPD보다 일관되게 우수한 성능을 보였다.

On-policy distillation (OPD)는 더 강력한 Teacher 모델로부터 제공되는 조밀한 피드백 (dense feedback)을 사용하여, Student 모델이 스스로 생성한 롤아웃 (rollouts)을 통해 학습하는 방식입니다. 기존 문헌에 따르면, Teacher의 피드백을 사용할 수 있다면 응답 토큰 (response tokens)의 전체 시퀀스를 감독하는 것이 성능을 단조적으로 향상시켜야 한다고 제안합니다. 그러나 본 연구에서는 이러한 가정이 강력한 모델에서 약한 모델로의 (strong-to-weak) OPD 설정에서 때때로 성립하지 않음을 보여줍니다. 생성된 궤적 (trajectory)의 후반부 세그먼트들이 여전히 0이 아닌 Teacher-Student 이점 (advantage)을 보일 수 있지만, 이들은 종종 Student의 학습 우선순위를 정하는 데 있어 조밀한 피드백을 효과적으로 만드는 국소적 대비 (local contrast)가 부족합니다. 우리는 이러한 실패 모드를 국소적 학습 가능성 붕괴 (local teachability collapse)라고 명명합니다. 여기서 도출되는 원칙은 간단합니다: 감독 (supervision)은 응답 전체를 균일하게 다루기보다는, Teacher의 피드백이 변별력을 유지하는 궤적 영역에 집중되어야 합니다. 우리는 이 원칙을 궤적 특화 해제 규칙 (trajectory-specific release rule)을 통해 구현합니다. 이 규칙은 Student의 상위 $K$개 후보 세트 (top-$K$ candidate set)에 대한 Teacher의 마진 (margin)을 측정하고, NLTK로 토큰화된 문장 세그먼트 전반에 걸쳐 이 마진을 집계하며, BIC 스타일의 하향 변화점 (downward change point)이 감지되면 조밀한 OPD 감독을 중단(truncate)합니다. Qwen3 모델 제품군을 사용한 강력한 모델에서 약한 모델로의 증류 (distillation) 작업에 대한 실험 결과, 이 해제 규칙이 다양한 Student 규모의 5가지 인도메인 (in-domain) 벤치마크에서 표준적인 전체 궤적 OPD보다 일관되게 우수한 성능을 보임을 나타냅니다. 또한, 베이스라인 증류 방법들과 비교했을 때, 우리의 접근 방식은 Out-of-domain 작업에서의 모델 능력을 더 잘 보존합니다. 이러한 결과는 효과적인 strong-to-weak OPD를 위해서는 Teacher의 가이드 제공 가능성뿐만 아니라 그 국소적 유용성 (local utility)을 평가하여, 생성된 피드백이 학습 가능한 상태 (teachable)로 유지되도록 보장해야 함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Prefix Teach, Suffix Fade: 강력한 모델에서 약한 모델로의 On-Policy Distillation에서의 국소적 학습

요약

핵심 포인트

댓글