확산 모델 훈련에서의 표현 저하 문제 규명
요약
확산 모델의 훈련 과정은 '표현 저하'라는 최적화 병목 현상으로 인해 비효율적이며, 노이즈 증가에 따라 구조 왜곡과 불안정성을 보입니다. 본 논문은 이러한 문제가 신경 접선 커널 스펙트럼 약화와 관련된 '불일치한 목표 복구 가능성' 때문임을 규명했습니다. 이를 해결하기 위해, 효과적인 복구 가능성에 맞춰 최적화 노력을 동적으로 재할당하는 플러그 앤 플레이 프레임워크인 '규명된 표현 확산(ERD)'을 제안합니다.
핵심 포인트
- 확산 모델의 주요 문제점은 '표현 저하(Representation Degradation)'로, 노이즈 수준 증가에 따라 구조 왜곡과 훈련 불안정성을 초래한다.
- 문제의 근본 원인은 신경 접선 커널 스펙트럼 약화와 관련된 '불일치한 목표 복구 가능성'이다.
- '규명된 표현 확산(ERD)'은 효과적인 복구 가능성에 따라 최적화 노력을 동적으로 재할당하는 새로운 프레임워크를 제시한다.
- ERD는 외부 감독 없이 표현 학습을 안정화하여 수렴 속도를 높이고 다양한 확산 모델에 적용 가능한 강력한 성능을 보인다.
확산 모델(Diffusion models)은 놀라운 성공을 거두었지만, 그 훈련 과정은 심각한 최적화 병목 현상 때문에 여전히 비효율적입니다. 우리는 이를 '표현 저하(Representation Degradation)'라고 명명합니다. 노이즈 수준이 증가함에 따라, 학습된 모델의 출력물은 점진적인 구조 왜곡을 보이며, 이는 훈련을 불안정하게 만들고 생성 품질을 저해할 수 있습니다. 우리의 분석에 따르면, 이러한 불안정성은 신경 접선 커널(Neural Tangent Kernel, NTK) 스펙트럼 약화 및 효과적인 낮은 순위(low-rank) 동작과 관련된 '불일치한 목표 복구 가능성(mismatched target recoverability)'에 의해 야기됩니다. 이를 해결하기 위해, 우리는 '규명된 표현 확산(Elucidated Representation Diffusion, ERD)'을 제안합니다. ERD는 효과적인 복구 가능성에 따라 최적화 노력을 동적으로 재할당하는 플러그 앤 플레이(plug-and-play) 프레임워크입니다. 외부 감독 없이 표현 학습을 안정화함으로써, ERD는 수렴 속도를 높이고 다양한 확산 백본(diffusion backbones) 전반에 걸쳐 강력한 경험적 성능을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기