강력한 교사가 필요하지 않은가? LLM 사전 학습에서의 지식 증류 (Distillation)에 관하여
요약
LLM 사전 학습 시 지식 증류(Knowledge Distillation)에서 교사 모델의 성능과 학생 모델 간의 관계를 연구했습니다. 연구 결과, 교사가 반드시 강력할 필요는 없으며 오히려 과도하게 강력한 교사가 증류 효과를 저해할 수 있음을 발견했습니다.
핵심 포인트
- 교사가 반드시 강력할 필요는 없으며 작은 모델로도 개선 가능
- 교사의 성능이 지나치게 높으면 증류 이득이 포화되거나 역전됨
- 지식 증류는 도메인 내 적합보다 일반화 성능 향상에 효과적임
- 강-약, 동일 수준, 약-강 관계에 따른 증류 효과 분석
지식 증류 (Knowledge distillation)는 일반적으로 더 강력한 교사 (Teacher)가 더 나은 학생 (Student)을 만들어낸다는 강한-약한 (strong-to-weak) 관계를 가정합니다. 본 연구에서는 대규모 언어 모델 (LLM) 사전 학습 (Pretraining)에서의 이러한 증류 가정에 대해 조사합니다. 아키텍처 크기와 학습 토큰 예산 (Training token budgets)을 변화시킴으로써, 우리는 강한-약한 (strong-to-weak), 동일 수준 (same-level), 그리고 약한-강한 (weak-to-strong) 교사-학생 관계를 생성하고, 각 상황에서 증류의 효과를 연구합니다. 우리는 교사가 반드시 강력할 필요는 없다는 것을 발견했습니다. 언어 모델링 (Language modeling) 손실과 지식 증류 (Knowledge distillation) 손실을 적절히 혼합하면, 작고 충분히 학습되지 않은 교사라도 더 큰 학생 모델을 개선할 수 있습니다. 동시에, 더 강력한 교사가 항상 더 나은 것은 아닙니다. 더 많은 파라미터 (Parameters)나 더 많은 학습 토큰을 통해 교사를 더 강력하게 만드는 것은 증류의 이득을 포화시키거나 심지어 역전시킬 수도 있습니다. 우리는 더 나아가 증류가 도메인 내 적합 (In-domain fitting)보다 일반화 (Generalization) (분포 외 (Out-of-distribution) 및 다운스트림 성능 (Downstream performance))를 더 쉽게 향상시킨다는 점을 관찰했습니다. 종합적으로, 이러한 결과들은 증류 사전 학습 (Distillation pretraining)이 항상 강력한 교사를 필요로 한다는 일반적인 믿음에 도전합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기