분리된 잡음 데이터 다양체에서 확산 생성 모델의 시간 조건화 탐색
요약
본 연구는 확산 모델에서 시간 조건화의 필요성을 기하학적으로 재검토합니다. 전방 확산 과정 하에서 잡음 데이터 분포가 저차원 다양체 위에 집중하며, 성공적인 생성은 이 다양체의 분리(disentanglement)에 달려있음을 밝힙니다. 이를 바탕으로 DDIM의 전방 과정을 수정하여 시간 조건화 없이도 flow-matching 접근법과 정렬함으로써 고품질 콘텐츠 생성을 달성할 수 있음을 증명하고, 클래스-조건부 생성 프레임워크를 확장했습니다.
핵심 포인트
- 확산 모델 학습에서 명시적인 시간 조건화의 필요성에 대한 근본적인 의문을 제기합니다.
- 잡음 데이터 분포는 고차원 공간 내에 저차원 다양체(manifolds) 형태로 집중하며, 생성 성공은 이 다양체의 분리(disentanglement)에 기인합니다.
- DDIM의 전방 과정을 수정하여 잡음 다양체를 flow-matching 접근법과 정렬함으로써 시간 조건화 없이도 고품질 생성이 가능함을 입증했습니다.
- 클래스-무조건적 모델을 통해 클래스-조건부 합성으로 확장 가능한 새로운 프레임워크를 제시합니다.
실용적으로, 확산 모델을 학습하는 것은 일반적으로 분모소ampling 과정을 네트워크가 통과하도록 안내하기 위해 명시적인 시간 조건화가 필요합니다. 특히 DDIM과 같은 결정론적 방법에서는 시간 조건화의 부재가 성능 저하를 초래합니다. 그러나 flow matching와 같은 다른 결정론적 샘플링 접근법은 이러한 조건화 없이도 고품질 콘텐츠를 생성할 수 있어, 그 필요성에 대한 의문이 제기됩니다. 본 연구에서는 기하학적 관점에서 시간 조건의 역할을 재검토합니다. 우리는 전방 확산 과정 하에서 잡음 데이터 분포의 진화를 분석하고, 고차원 공간에서 이러한 분포들이 입력 공간 내에 내재된 저차원 하이퍼-실린더와 같은 다양체 (manifolds) 위에 집중한다는 것을 보여줍니다. 성공적인 생성은 우리가 주장하듯 고차원 공간에서의 이러한 다양체의 분리 (disentanglement) 에서 비롯됩니다. 이 통찰을 바탕으로 우리는 DDIM의 전방 과정을 수정하여 잡음 데이터 다양체를 flow-matching 접근법과 정렬하고, 잡음 다양체가 flow-matching 방법에 따라 진화할 경우 시간 조건화 없이도 DDIM이 고품질 콘텐츠를 생성할 수 있음을 증명합니다. 또한, 클래스를 별도의 시간 공간으로 분리함으로써 클래스-조건부 생성을 위한 프레임워크를 확장하여, 클래스-무조건적 분모소모델 (class-unconditional denoising model) 로 클래스-조건부 합성 (class-conditioned synthesis) 을 가능하게 합니다. 광범위한 실험은 우리의 이론적 분석을 검증하며, 명시적인 조건부 임베딩 없이 고품질 생성이 가능함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기