arXiv논문2026. 05. 26. 11:35

Φ-Noise: 위상 기반 노이즈 조작을 통한 학습이 필요 없는 시계열 비디오 컨디셔닝 (Temporal Video Conditioning)

요약

Φ-Noise는 추가 학습 없이 참조 비디오의 저주파 위상 정보를 확산 노이즈에 직접 주입하여 동작을 제어하는 새로운 비디오 컨디셔닝 기법을 제안합니다. 모델 구조 변경 없이도 비디오의 외형과 역학을 효과적으로 제어할 수 있는 효율적인 접근 방식입니다.

핵심 포인트

학습이 필요 없는(Training-free) 시계열 비디오 컨디셔닝 방식 제안
참조 비디오의 저주파 위상 정보를 노이즈 잠재 변수에 직접 주입
모델 아키텍처나 추론 파이프라인의 수정 없이 동작 단서 전달 가능
기존 복잡한 컨디셔닝 방식 대비 경쟁력 있는 생성 결과 달성

잠재 비디오 확산 모델 (Latent video diffusion models)은 텍스트나 시각적 입력에 따라 가우시안 노이즈 (Gaussian noise)를 점진적으로 사실적인 샘플로 변환함으로써 비디오를 생성합니다. 그러나 기존의 컨디셔닝 (Conditioning) 방법들은 종종 추가적인 학습과 계산 오버헤드 (Computational overhead)를 요구합니다. 생성 모델에서 주파수 성분 (Frequency components)의 중요성에 관한 최근의 연구 결과에 착안하여, 우리는 참조 비디오 (Reference video)의 저주파 위상 정보 (Low-frequency phase information)를 확산 노이즈 잠재 변수 (Diffusion noise latents)에 직접 주입함으로써 동작이 조건화된 (Motion-conditioned) 비디오 생성을 위한 단순하고 학습이 필요 없는 (Training-free) 접근 방식을 제안합니다. 우리의 방법은 모델 아키텍처 (Model architecture)나 추론 파이프라인 (Inference pipeline)을 수정하지 않고도 동작 단서 (Motion cues)를 전달합니다. 여러 응용 사례를 통해, 우리는 생성된 비디오의 외형 (Appearance)과 역학 (Dynamics) 모두를 효과적으로 제어함을 입증하였으며, 더 복잡한 컨디셔닝 접근 방식들과 비교하여 경쟁력 있거나 우수한 결과를 달성하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Φ-Noise: 위상 기반 노이즈 조작을 통한 학습이 필요 없는 시계열 비디오 컨디셔닝 (Temporal Video Conditioning)

요약

핵심 포인트

댓글