arXiv논문2026. 06. 19. 12:22

확산 모델 (Diffusion Models)에서 타임스텝 임베딩 (Timestep Embeddings)의 중복성에 대하여

요약

확산 모델에서 명시적인 타임스텝 임베딩의 필요성에 의문을 제기하는 연구입니다. 이론적 프레임워크와 실험을 통해 타임스텝 컨디셔닝 없이도 모델이 노이즈 스케일을 암시적으로 추론할 수 있음을 증명했습니다.

핵심 포인트

타임스텝 임베딩 없이도 확산 학습 목적 함수의 최솟값 달성 가능
U-Net 및 Diffusion Transformer에서 시간적 신호의 중복성 확인
CelebA, CIFAR-10 실험에서 높은 구조적 충실도 및 경쟁적 지표 달성
명시적 컨디셔닝 없이 노이즈 스케일을 암시적으로 추론하는 아키텍처 제안

확산 모델 (Diffusion models)은 다양한 노이즈 스케일 (noise scales)에 걸쳐 디노이징 (denoising) 과정을 조절하기 위해 명시적인 타임스텝 임베딩 (timestep embeddings)에 크게 의존합니다. 본 연구에서는 U-Net 및 확산 트랜스포머 (Diffusion Transformer) 아키텍처에 미치는 영향을 분석함으로써 이러한 시간적 신호 (temporal signals)의 필요성에 의문을 제기합니다. 경험적 증거를 넘어, 우리는 특정 조건 하에서 명시적인 타임스텝 컨디셔닝 (timestep conditioning) 없이도 확산 학습 목적 함수 (diffusion training objective)의 전역 최솟값 (global minimizer)을 달성할 수 있음을 보여주는 이론적 프레임워크를 제공합니다. 우리의 연구 결과는 타임스텝 임베딩이 완전히 제거되었을 때 놀라운 강건성 (robustness)을 보인다는 점을 밝혀냈습니다. CelebA 및 CIFAR-10 데이터셋에 대한 광범위한 어블레이션 연구 (ablation studies)는 이러한 시간 불가지론적 (time-agnostic) 모델들이 높은 구조적 충실도 (structural fidelity)를 유지할 수 있으며, FID, 정밀도 (precision), 재현율 (recall)을 포함한 경쟁적인 지표에서 컨디셔닝된 모델들을 능가할 수도 있음을 보여줍니다. 우리의 분석은 이러한 아키텍처들이 특정 가정 하에서 손상된 입력으로부터 노이즈 스케일을 암시적으로 추론할 수 있음을 시사하며, 이는 명시적인 시간적 컨디셔닝 (temporal conditioning)을 불필요하게 만듭니다. 본 연구는 오랫동안 지속되어 온 시간적 컨디셔닝 패러다임에 도전하며, 더욱 효율적이고 구조에 집중된 생성 아키텍처 (generative architectures)를 위한 길을 열어줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

확산 모델 (Diffusion Models)에서 타임스텝 임베딩 (Timestep Embeddings)의 중복성에 대하여

요약

핵심 포인트

댓글