적응형 스케줄 최적화를 통한 정보 이론적 Classifier-Free Guidance
요약
확산 모델의 Classifier-Free Guidance(CFG) 과정에서 발생하는 일관성과 다양성 간의 트레이드오프 문제를 해결하기 위한 정보 이론적 프레임워크를 제안합니다. 적응형 스케줄 최적화를 통해 노이즈 레벨에 따라 가이던스를 선택적으로 할당하여 생성 품질을 개선합니다.
핵심 포인트
- CFG의 일관성-커버리지 트레이드오프 제어 문제 해결
- 정보 이론 기반의 적응형 스케줄 최적화 프레임워크 제안
- 명시적 밀도 추정 없이 궤적 수준의 공식으로 목적 함수 추정
- ImageNet 및 COCO 데이터셋 실험을 통해 성능 우수성 입증
확산 모델 (Diffusion models)은 이미지, 텍스트-투-이미지 (text-to-image), 그리고 비디오 생성 분야에서 강력한 성능을 달성해 왔으며, 여기서 조건부 생성 (conditional generation)은 종종 Classifier-Free Guidance (CFG)에 의해 제어됩니다. CFG는 가이던스 가중치 (guidance weight)를 증가시켜 조건 일관성 (condition consistency)을 향상시키지만, 더 강한 가이던스는 일반적으로 다양성 (diversity)과 분포 커버리지 (distributional coverage)를 감소시킵니다. CFG에 의해 유도되는 분포는 가이드된 스코어 필드 (guided score field)에 의해 주어진 고정 시간 기울어진 분포 (fixed-time tilted distribution)가 아니기 때문에, 역방향 궤적 (reverse trajectory) 전체에 걸쳐 이러한 일관성-커버리지 트레이드오프 (consistency-coverage trade-off)를 어떻게 제어해야 하는지는 여전히 불분명합니다. 이 문제를 해결하기 위해, 우리는 CFG 스케줄 최적화를 위한 정보 이론적 프레임워크 (information-theoretic framework)를 제안합니다. 우리의 접근 방식은 원하는 일관성-커버리지 트레이드오프를 지정하기 위해 깨끗한 엔드포인트 참조 (clean endpoint reference)를 사용하며, 가이드된 샘플러 (guided sampler)에 의해 유도되는 실제 분포를 이 참조를 향해 최적화합니다. 우리는 명시적인 밀도 추정 (density estimation)을 피하면서, 샘플과 스코어 평가로부터 목적 함수를 추정하기 위한 궤적 수준의 공식 (trajectory-level formulas)을 도출합니다. EDM-XXL을 사용한 ImageNet-512와 SD-XL을 사용한 COCO 데이터셋 실험에서, 학습된 스케줄은 일정한 가이던스 (constant guidance) 대비 경쟁력 있거나 개선된 트레이드오프를 달성하였으며, 노이즈 레벨 (noise levels)에 따라 가이던스를 선택적으로 할당합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기