arXiv논문2026. 05. 25. 16:34

강력한 교사가 필요하지 않은가? LLM 사전 학습에서의 지식 증류 (Distillation)에 관하여

요약

LLM 사전 학습 시 지식 증류(Knowledge Distillation)에서 교사 모델의 성능과 학생 모델 간의 관계를 연구했습니다. 연구 결과, 교사가 반드시 강력할 필요는 없으며 오히려 과도하게 강력한 교사가 증류 효과를 저해할 수 있음을 발견했습니다.

핵심 포인트

교사가 반드시 강력할 필요는 없으며 작은 모델로도 개선 가능
교사의 성능이 지나치게 높으면 증류 이득이 포화되거나 역전됨
지식 증류는 도메인 내 적합보다 일반화 성능 향상에 효과적임
강-약, 동일 수준, 약-강 관계에 따른 증류 효과 분석

지식 증류 (Knowledge distillation)는 일반적으로 더 강력한 교사 (Teacher)가 더 나은 학생 (Student)을 만들어낸다는 강한-약한 (strong-to-weak) 관계를 가정합니다. 본 연구에서는 대규모 언어 모델 (LLM) 사전 학습 (Pretraining)에서의 이러한 증류 가정에 대해 조사합니다. 아키텍처 크기와 학습 토큰 예산 (Training token budgets)을 변화시킴으로써, 우리는 강한-약한 (strong-to-weak), 동일 수준 (same-level), 그리고 약한-강한 (weak-to-strong) 교사-학생 관계를 생성하고, 각 상황에서 증류의 효과를 연구합니다. 우리는 교사가 반드시 강력할 필요는 없다는 것을 발견했습니다. 언어 모델링 (Language modeling) 손실과 지식 증류 (Knowledge distillation) 손실을 적절히 혼합하면, 작고 충분히 학습되지 않은 교사라도 더 큰 학생 모델을 개선할 수 있습니다. 동시에, 더 강력한 교사가 항상 더 나은 것은 아닙니다. 더 많은 파라미터 (Parameters)나 더 많은 학습 토큰을 통해 교사를 더 강력하게 만드는 것은 증류의 이득을 포화시키거나 심지어 역전시킬 수도 있습니다. 우리는 더 나아가 증류가 도메인 내 적합 (In-domain fitting)보다 일반화 (Generalization) (분포 외 (Out-of-distribution) 및 다운스트림 성능 (Downstream performance))를 더 쉽게 향상시킨다는 점을 관찰했습니다. 종합적으로, 이러한 결과들은 증류 사전 학습 (Distillation pretraining)이 항상 강력한 교사를 필요로 한다는 일반적인 믿음에 도전합니다.

AI 자동 생성 콘텐츠

원문 바로가기

강력한 교사가 필요하지 않은가? LLM 사전 학습에서의 지식 증류 (Distillation)에 관하여

요약

핵심 포인트

댓글