LIFT와 PLACE: 경량 확산 모델 (Lightweight Diffusion Models)을 위한 단순하고 안정적이며 효과적인 지식 증류
요약
확산 모델의 지식 증류(KD) 과정에서 발생하는 교사 모델의 복잡한 노이즈 제거 프로세스를 학생 모델이 모방하기 어렵다는 문제를 해결하기 위한 새로운 프레임워크를 제안합니다. LIFT는 목적 함수를 거친 정렬과 정밀한 개선 단계로 분해하며, PLACE는 국소적으로 적응형 가이던스를 제공하여 공간적 오류를 해결합니다. 이를 통해 극단적인 모델 압축 상황에서도 안정적인 학습과 높은 성능을 달성할 수 있음을 입증했습니다.
핵심 포인트
- LIFT(LInear FiTtingbased distillation)를 통해 지식 증류 과정을 '거친 정렬'과 '정밀한 개선' 단계로 분리하여 학습 효율을 높임
- PLACE(Piecewise Local Adaptive Coefficient Estimation)를 도입하여 공간적으로 불균일한 오류를 국소적으로 적응하며 해결
- U-Net, DiT, MMDiT(SD3) 등 다양한 백본과 이미지/잠재 공간 전반에서 범용적인 효과 입증
- 교사 모델 대비 1.6% 수준의 극단적인 파라미터 압축 환경에서도 안정적인 수렴과 우수한 FID 성능 달성
우리는 확산 모델 (Diffusion Models)의 지식 증류 (Knowledge Distillation, KD) 과정에서, 교사 네트워크 (Teacher Network)의 매우 복잡한 노이즈 제거 (Denoising) 프로세스가 — 그보다 훨씬 큰 용량 (Capacity)에서 기인하여 — 학생 모델 (Student Model)이 이를 충실히 모방하는 데 상당한 어려움을 준다는 것을 입증합니다. 이 문제를 해결하기 위해, 우리는 선형 적합 기반 증류 (LInear FiTtingbased distillation, LIFT)와 조각별 국소 적응형 계수 추정 (Piecewise Local Adaptive Coefficient Estimation, PLACE)을 포함하는 coarse-to-fine 증류 프레임워크를 제안합니다. 첫째, LIFT는 목적 함수를 '거친 (coarse)' 정렬과 '정밀한 (fine)' 개선으로 분해합니다. 학생 모델은 정밀한 개선 단계로 넘어가기 전에 거친 정렬 단계에서 먼저 학습됩니다. 둘째, PLACE는 출력을 오류 기반 그룹으로 분할하여 국소적으로 적응형 가이던스 (Locally Adaptive Guidance)를 제공함으로써, 공간적으로 불균일한 오류를 해결하기 위해 LIFT를 확장합니다. 우리의 실험 결과에 따르면, LIFT와 PLACE는 확산 공간 (Diffusion Spaces; 이미지/잠재 공간 (Image/Latent)), 백본 (Backbones; U-Net/DiT), 작업 (Tasks; 무조건부/조건부 (Unconditional/Conditional)), 데이터셋 전반에 걸쳐 효과적이며, 심지어 MMDiT (SD3)와 같은 흐름 기반 모델 (Flow-based Models)로도 확장됩니다. 나아가, 1.3M 파라미터의 학생 모델(교사의 1.6%에 불과함)을 사용하는 극단적인 압축 상황에서, 기존의 KD는 안정적인 학습을 위한 충분한 가이던스를 제공하지 못해 FID 점수가 종종 50-200 이상으로 저하되지만, 우리의 방법은 안정적으로 수렴하며 15.73의 FID를 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기