모든 규모에서의 모든 것: 연속적 초해상도를 이용한 규모 불변 확산 모델 (Scale-Invariant Diffusion with
요약
이미지 생성과 연속적 초해상도를 단일 프레임워크로 통합한 SKILD 모델을 소개합니다. 규모 불변 K-공간 학습을 통해 별도의 재학습이나 조건부 분기 없이도 다양한 스케일에서 고품질 이미지를 생성하고 재구성할 수 있습니다.
핵심 포인트
- 생성과 초해상도를 단일 비조건부 프레임워크로 통합
- 규모를 확산 역학의 명시적 좌표로 활용하는 SKILD 모델 제안
- 추가 학습 없이 시작 타임스텝 조절만으로 스케일 제어 가능
- ImageNet 및 물리 시스템(Ising 모델)에서 우수한 성능 입증
노이즈로부터 이미지를 생성하는 것은 이미지 생성 (Image Generation)이며, 거친 입력으로부터 미세한 세부 사항을 재구성하는 것은 초해상도 (Super-Resolution)입니다. 실질적인 차이에도 불구하고, 두 작업 모두 규모(Scale)에 따른 정보 손실을 역전시키는 과정으로 이해될 수 있습니다. 우리는 생성과 연속적 초해상도를 단일 비조건부 (Unconditional) 프레임워크 내에서 통합하는 규모 불변 K-공간 이미지 학습 확산 모델 (Scale-invariant K-Space Image Learning Diffusion model, SKILD)을 소개합니다. 자연 이미지와 중요한 물리 시스템 모두 규모 불변성 (Scale Invariance)을 나타내며, 우리는 이를 활용하여 이미지 콘텐츠를 미세한 규모에서 거친 규모로 감쇠시키는 동시에 스펙트럼이 일치하는 가우시안 노이즈 (Gaussian Noise)를 주입하는 순방향 과정 (Forward Process)을 설계하여, 규모를 확산 역학 (Diffusion Dynamics)의 명시적인 좌표로 만듭니다. 동일하게 학습된 역과정 (Reverse Process)은 시작 타임스텝 (Starting Timestep)만을 변경함으로써 생성과 연속적 초해상도를 수행합니다: 즉, 태스크별 특화 아키텍처, 조건부 분기 (Conditioning Branch), 분류기 없는 가이드 (Classifier-free Guidance), 규모 인자별 재학습이 전혀 필요하지 않습니다. 실증적으로, SKILD는 비조건부 CIFAR-10에서 FID 2.65와 Inception Score 9.63을 달성하였으며, 단일 비조건부 체크포인트로 ImageNet에서 2배~8배 초해상도를 수행하면서 지각적 지표 (Perceptual Metrics) 전반에서 조건부 모델들을 능가하였고, 연결된 4점 상관관계 (Four-point Correlations)가 정답(Ground Truth)을 밀접하게 추적하는 중요한 Ising 모델들을 재구성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기