World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian
요약
단안 비디오로부터 동적 3D 가우시안(3DGS) 표현을 생성하는 'World from Motion' 방법론을 제안합니다. 비디오 모델을 활용해 렌더링 아티팩트를 수정하고 누락된 영역을 채워 고품질의 4D 재구성을 구현합니다.
핵심 포인트
- 단안 비디오 기반의 생성적 동적 3D 가우시안 재구성 기술 제시
- 픽셀 정렬된 렌더링을 통해 기하학적 구조 및 장면 움직임 인코딩
- 4D 재구성 분야에서 새로운 SOTA(State-of-the-art) 달성
- 시점 변화가 크고 동적인 야생(in-the-wild) 비디오에 효과적 적용
우리는 단안 비디오(monocular videos)로부터 자유롭게 렌더링 가능한 동적 3D 가우시안(3D Gaussian) 표현을 생성하는 방법론인 World from Motion을 제시합니다. 우리의 접근 방식은 비디오 모델이 입력 및 타겟 카메라 궤적(camera trajectories)을 따라 외관(appearance), 기하학적 구조(geometry), 그리고 3D 장면 움직임(3D scene motion)을 인코딩하는 조밀하고 픽셀 정렬된 렌더링(pixel-aligned renderings)을 조건으로 사용하도록 하여, 렌더링 아티팩트(rendering artifacts)를 수정하고 초기 재구성에서 누락된 영역을 채웁니다. 이 모델을 학습시키기 위해, 우리는 단안 재구성의 특징적인 시뮬레이션된 아티팩트가 포함된 정렬된 다중 뷰 비디오 쌍(multiview video pairs)과 동적 3DGS 표현으로 구성된 데이터셋을 구축합니다. 테스트 시에는 새롭게 관찰된 영역과 움직임을 포함한 모델의 생성물을 단일하고 일관된 고품질 동적 3DGS로 증류(distill)하여, 새로운 시점 합성(novel-view synthesis)과 근본적인 3D 움직임을 모두 개선합니다. 우리의 방법은 4D 재구성(4D reconstruction) 분야에서 새로운 SOTA(state of the art)를 기록하며, 시점 변화가 크고 동적인 움직임이 있는 야생(in-the-wild) 비디오에도 매끄럽게 일반화됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기