NeoMap: 단일 이미지 및 비디오로부터의 학습이 필요 없는 새로운 시점 합성 (Novel-View Synthesis)
요약
NeoMap은 사전 학습된 비디오 모델을 미세 조정 없이 사용하여 단일 이미지나 비디오로부터 새로운 시점을 합성하는 training-free 프레임워크입니다. 자연 비디오 데이터 매니폴드 내에서 최적의 솔루션을 찾는 매니폴드 교대 투영 방식을 통해 높은 충실도와 시점 일관성을 달성했습니다.
핵심 포인트
- 사전 학습된 비디오 모델을 활용한 training-free 시점 합성
- 카메라 조건화나 미세 조정 없이 아티팩트 및 일관성 문제 해결
- 수렴형 매니폴드 교대 투영 반복 메커니즘 도입
- 표준 벤치마크 데이터셋에서 SOTA 성능 입증
우리는 단일 이미지 또는 단안 비디오(monocular videos)로부터 새로운 시점의 비디오를 합성하는 도전적인 문제를 연구합니다. 기존 방법들은 사전 학습된 비디오 모델(pre-trained video models)에 본래적인 새로운 시점 합성 능력이 부족하다는 가정하에 작동하며, 카메라 조건화(camera conditioning), 작업 특정적 미세 조정(task-specific fine-tuning), 또는 단계별 하드 디노이징 가이드(stepwise hard denoising guidance)를 통해 시점 정렬(view alignment)을 강제합니다. 그러나 이러한 방식은 종종 아티팩트(artifacts)가 발생하고 전역적인 장면 일관성(global scene consistency)이 저해되는 문제를 겪습니다. 본 논문에서는 일반적인 사전 학습된 비디오 모델로부터 고충실도(high-fidelity) 및 시점 일관성(view-consistent)을 갖춘 새로운 시점 솔루션을 찾아내도록 설계된 새로운 학습이 필요 없는(training-free) 프레임워크인 NeoMap을 소개합니다. 우리 접근 방식의 핵심 통찰은 유망한 새로운 시점 솔루션이 사전 학습된 모델이 학습한 자연 비디오 데이터 매니폴드(natural video data manifold) 내에 본질적으로 인코딩되어 있으며, 핵심 과제는 단순히 이 최적의 솔루션을 찾아내는 것이라는 점입니다. 우리는 초기 노이즈를 최적화하는 핵심 메커니즘인 수렴형 매니폴드 교대 투영 반복(convergent manifold alternating projection iterations)을 통해 이 문제를 해결합니다. 광범위한 실험을 통해 NeoMap이 도전적인 Tanks-and-Temples, LLFF 및 DAVIS 데이터셋을 포함한 3가지 표준 새로운 시점 합성 벤치마크 전반에서 기존의 모든 방법보다 크게 우수함을 입증하였으며, 최첨단(state-of-the-art) 생성 충실도와 최상위 수준의 시점 일관성을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기