학생 모델의 용량이 지식 증류(Knowledge Distillation) 효과를 조절한다: CIFAR-10의 ResNet 교사-학생 쌍에 대한
요약
CIFAR-10 데이터셋의 ResNet 모델을 활용하여 교사-학생 모델 간의 용량 차이가 지식 증류(KD) 효과에 미치는 영향을 분석했습니다. 연구 결과, 학생 모델의 용량이 증류 이득의 핵심 조절 요인이며, Feature-KD의 구현 정확도와 입력 해상도 인지 아키텍처가 성능에 결정적임을 밝혀냈습니다.
핵심 포인트
- 학생 모델의 용량이 클수록 지식 증류를 통한 성능 이득이 증가함
- Feature-KD는 구현 방식에 따라 Logit-KD보다 우수한 성능을 보일 수 있음
- 입력 해상도를 고려한 아키텍처 수정이 KD 효과보다 더 큰 성능 향상을 유도함
- 실험의 재현성을 위해 그래디언트 클리핑 등 구현 디테일이 매우 중요함
우리는 CIFAR-10 기반의 ResNet 이미지 분류에서 교사-학생(teacher-student) 용량 관계가 지식 증류 (Knowledge Distillation, KD) 효과를 어떻게 조절하는지 조사합니다. 세 가지 교사-학생 쌍인 R50->R18, R34->R18, R50->R34에 대해, 통제되고 재현 가능한 조건(3개의 시드 사용, 전체 과정에서 평균+/-표준편차 보고) 하에서 Logit-KD와 Feature-KD를 비교합니다. 우리는 세 가지 주요 발견을 보고합니다. 첫째, 학생의 용량은 증류 이득(distillation gain)의 핵심적인 조절 요인입니다. 교사-학생 간의 정확도 격차가 비슷할 때도 R34 학생은 R18 학생보다 KD로부터 실질적으로 더 많은 이득을 얻으며, R50->R34 Feature-KD에서 +0.30pp의 가장 강력한 이득이 관찰되었습니다. 이는 R34->R18 Feature-KD의 +0.18pp 및 R34->R18 Logit-KD의 +0.00pp와 대조적입니다. 둘째, 구현의 정확성이 Feature-KD에 결정적인 영향을 미칩니다. 투영 계층(projection layers)을 제외하는 그래디언트 클리핑(gradient clipping) 버그는 Feature-KD의 성능을 억제하고 Logit-KD와의 오해의 소지가 있는 비교를 생성했습니다. 수정 후, Feature-KD는 세 쌍 중 두 쌍에서 Logit-KD와 대등하거나 더 나은 성능을 보였으며, R50->R34에서 베이스라인인 95.25% 대비 95.55%에 도달했습니다. 셋째, 입력 해상도를 인지하는 아키텍처(input-resolution-aware architecture)는 효과적인 증류를 위한 전제 조건입니다. 32x32 입력을 위해 ResNet stem을 수정하면 교사 모델의 정확도가 5pp 이상 향상되는데, 이는 어떠한 KD 이득보다도 한 자릿수(an order of magnitude) 더 큰 수치입니다. 모든 코드와 결과는 github.com/umutonuryasar/kd-capacity-gap 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기