OrbitForge: 재구성 고정형 비디오 합성을 통한 텍text-to-3D 장면 생성
요약
OrbitForge는 텍스트 기반 비디오 생성 모델을 활용하여 고품질의 3D Gaussian Splatting 장면을 생성하는 새로운 어댑터 기술입니다. 비디오의 시점 누락을 탐지하고 이를 보완하여 일관성 있는 3D 장면을 재구성함으로써 기존 방식의 한계를 극복합니다.
핵심 포인트
- 텍스트-비디오 모델을 활용한 3D Gaussian Splatting 장면 생성
- 누락된 시점을 탐지하고 비디오 모델로 완성하는 궤도 최적화 방식
- 추가적인 미세 조정이나 복잡한 점수 증류 최적화 없이 작동
- T3Bench 평가에서 높은 시점 범위(median span)와 품질 달성
범용적인 text-to-video (텍스트-비디오 생성) 모델은 풍부한 오픈 월드 장면 사전 정보 (scene priors)로 사용될 수 있습니다. 오늘날 생성된 비디오의 높은 품질에도 불구하고, 이들은 신뢰할 수 있는 3D 에셋을 직접적으로 산출하지는 못합니다. 카메라 움직임을 제어하기 어렵고, 시점 범위 (view coverage)가 부분적이며, 프레임 간에 시간적 불일치가 발생하는 경우가 많기 때문입니다. 우리는 고정된 (frozen) 비디오 사전 정보와 프롬프트별 Gaussian Splatting (가우시안 스플래팅) 재구성 최적화를 통해, 단일 텍스트 생성 비디오를 표준적인 폐쇄 궤도 (closed-orbit) 3D Gaussian Splatting 장면으로 변환하는 어댑터인 OrbitForge를 소개합니다. 우리는 생성된 비디오의 3D 일관성 (3D consistency)을 향상시키기 위해 3D 재구성을 앵커 (anchor)로 사용합니다. 우리는 강력한 MedianGS 프록시를 사용하는 Deformable Gaussian Splatting을 통해 첫 번째 생성된 비디오로부터 예비 3D 재구성을 얻습니다. 이후 지정된 궤도 (orbit)에서 시점들을 렌더링하여 누락된 시점을 탐지합니다. OrbitForge는 text-to-video 모델을 사용하여 누락된 시점만을 완성하며, 완성된 궤도를 최종적인 Gaussian Splatting 장면으로 재구성합니다. 이러한 설계는 작업 특화된 비디오 또는 다중 시점 미세 조정 (multiview fine-tuning)을 필요로 하지 않으며, 프롬프트별 점수 증류 최적화 (score-distillation optimization)를 피하고, 시점을 한 단계씩 점진적으로 생성하지도 않습니다. 우리는 더 나아가 이 설정이 범위 인식 평가 (coverage-aware evaluation)를 요구한다고 주장합니다. 국소적 매끄러움 (local smoothness)만으로는 전체 궤도를 시도하지 않는 방법론들에 보상을 주기 때문입니다. 고정된 300개 프롬프트의 T3Bench 유도 감사 (audit)에서, OrbitForge 재구성은 359.0도의 측정된 중앙값 범위 (median span)를 달성하였으며, MedianGS 전용 재구성과 비교했을 때 원래 지원되지 않는 빈(bin)이었던 Q10 ImageReward를 8.07에서 16.36으로 높였고, 범위-품질 측면에서 VideoMV와 경쟁할 만한 수준을 유지했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기