arXiv논문2026. 06. 02. 13:04

왜 DMD 학생 모델은 게으른가? Few-Step Distillation에서의 복제 행동 이해

요약

DMD(Distribution Matching Distillation)를 통한 확산 모델 압축 과정에서 발생하는 '복제(copying)' 현상을 분석합니다. 고차원 설정에서 학생 모델이 교사 모델의 노이즈-데이터 쌍을 자발적으로 재현하는 현상이 기하학적 자유도의 제한으로 인한 창발적 특성임을 밝힙니다.

핵심 포인트

DMD는 분포 정렬을 통해 확산 모델을 효율적인 생성기로 압축함
고차원 증류 시 학생 모델이 교사 모델의 데이터를 복제하는 현상 발견
복제 현상은 적대적 목적 함수나 암기의 결과가 아님
제한된 기하학적 자유도에서 발생하는 창발적 특성으로 분석됨

Distribution Matching Distillation (DMD)는 모든 스케일에 걸쳐 노이즈가 섞인 분포 (noised distributions)를 정렬함으로써, 사전 학습된 확산 모델 (diffusion models)을 효율적인 Few-Step 생성기 (few-step generators)로 압축합니다. 원칙적으로, 이러한 분포 수준의 감독 (distribution-level supervision)은 교사 모델 (teacher)의 특정 노이즈-데이터 쌍 (noise-data pairings)에 구애받지 않습니다. 이는 학생 모델 (student)에게 잠재 노이즈 (latent noise)를 재매핑 (remap)할 수 있는 자유를 제공하며, 이러한 행동은 저차원 (low-dimensional) 설정에서 일관되게 관찰되었습니다. 놀랍게도, 우리는 고차원 (high-dimensional) 설정에서 증류된 학생 모델이 교사 모델의 원래 노이즈-데이터 쌍을 자발적으로 재현한다는 것을 발견했으며, 이 현상을 복제 (copying)라고 명명합니다. 우리는 복제가 적대적 목적 함수 (adversarial objectives)의 부산물도 아니고 교사 모델 암기 (teacher memorization)의 결과도 아님을 입증합니다. 대신, 우리의 증거는 복제가 고차원 증류 (high-dimensional distillation) 과정 중 학생 모델의 제한된 기하학적 자유도 (geometric freedom)에서 발생하는 창발적 특성 (emergent property)임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

왜 DMD 학생 모델은 게으른가? Few-Step Distillation에서의 복제 행동 이해

요약

핵심 포인트

댓글