초기화가 전투의 절반이다: 가이드 포텐셜 사후 분포(Guidance Potential Posterior)로부터 다양한 이미지 생성하기
요약
생성 모델의 모드 붕괴 문제를 해결하기 위해 초기 노이즈 선택 방식을 개선한 연구입니다. 가이드 포텐셜 사후 분포를 활용한 DivIn 기법을 통해 확산 모델과 플로우 매칭 모델의 이미지 생성 다양성을 크게 향상시켰습니다.
핵심 포인트
- 표준 가우시안 초기화가 모드 붕괴를 유발함을 식별
- Langevin dynamics 기반의 DivIn 초기화 방식 도입
- 확산 모델 및 플로우 매칭 모델과 호환 가능
- 기존 궤적 기반 방법론과 결합 시 성능 시너지 발생
생성 모델(Generative models)의 놀라운 충실도에도 불구하고, 이들은 빈번하게 모드 붕괴(Mode collapse) 문제를 겪습니다. 다양성을 향상시키기 위한 기존 전략들은 주로 생성 궤적(Generation trajectory) 과정에서의 개입에 집중해 왔습니다. 우리는 표준 가우시안 초기화(Standard Gaussian initialization)가 가이드 포텐셜 지형(Guidance potential landscape)을 고려하지 않기 때문에, 궤적이 지배적인 모드(Dominant modes)로 붕괴되는 현상을 초래한다는 중요한 간과 사항을 식별했습니다. 본 연구에서는 가이드 포텐셜 사후 분포(Guidance potential posterior)로부터 초기 노이즈를 선택하는 방식을 공식화하며, 이는 사전 분포(Prior)를 다양성이 풍부한 영역으로 효과적으로 재가중(Re-weight)합니다. 이 분포로부터 효율적으로 샘플링하기 위해, 우리는 Langevin dynamics를 활용하여 초기화 지형을 능동적으로 탐색하는 다양성 유도 초기화(Diversity-inducing Initialization, DivIn)를 도입합니다. 이는 초기 노이즈를 붕괴 영역으로부터 멀어지게 유도하는 동시에 유효한 데이터 매니폴드(Data manifold)에 고정시킵니다. 우리의 방법은 확산 모델(Diffusion models)과 플로우 매칭(Flow matching) 모델 모두와 호환되는 추론 시간(Inference-time) 다양성 향상 기법으로 작동합니다. 광범위한 실험을 통해 DivIn이 클래스-이미지(Class-to-image) 및 텍스트-이미지(Text-to-image) 시나리오 모두에서 우수한 성능을 보임을 입증했습니다. 나아가, DivIn은 궤적 기반 방법론(Trajectory-based methods)과 직교(Orthogonal)하므로, 이들을 결합하면 각각을 단독으로 사용할 때보다 다양성-품질 파레토 프런티어(Pareto frontier)를 크게 확장할 수 있음을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기