본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 01:23

3DPhysVideo: 3D 장면 재구성 및 물리 시뮬레이션을 통한 비디오 생성을 위한 일관성 가이드 Flow SDE

요약

3DPhysVideo는 단일 이미지로부터 물리적으로 사실적인 비디오를 생성하기 위해 3D 장면 재구성과 물리 시뮬레이션을 결합한 새로운 training-free 파이프라인입니다. Consistency-Guided Flow SDE를 통해 기존 비디오 모델을 재사용하여 360도 기하 구조 재구성과 물리적 역학이 반영된 고품질 비디오 합성을 가능하게 합니다. 이를 통해 유체 역학 및 다중 객체 상호작용과 같은 복잡한 물리적 시나리오에서도 뛰어난 성능을 보여줍니다.

핵심 포인트

  • 단일 이미지에서 물리적으로 타당한 비디오를 생성하는 training-free 파이프라인 제안
  • Consistency-Guided Flow SDE를 활용하여 기존 I2V Flow 모델을 3D 재구성과 물리 시뮬레이션 가이드로 재사용
  • 포인트 클라우드 기반의 시점 합성 및 물리 솔버 적용을 통한 물리적 역학 구현
  • 유체 및 다중 객체 상호작용 장면에서 기존 SOTA 모델 대비 우수한 성능 입증
  • 단일 GPU 환경에서도 효율적으로 실행 가능한 구조

비디오 생성 모델(Video generative models)은 놀라운 발전을 이루었으나, 물리적 역학(physical dynamics)의 근거를 위배하는 시각적 아티팩트(visual artifacts)를 생성하는 경우가 많습니다. PhysGen3D와 같은 최근 연구들은 메쉬 재구성(mesh reconstruction) 및 물리 기반 렌더링(Physically-Based Rendering)을 통해 단일 이미지 기반 3D 물리(single image-to-3D physics) 문제를 다루고 있지만, 유체 역학(fluid dynamics), 다중 객체 상호작용(multi-object interactions) 및 실사감(photorealism) 모델링에는 여전히 과제가 남아 있습니다. 본 연구는 단일 이미지로부터 물리적으로 사실적인 비디오를 생성하는 새로운 훈련 불필요(training-free) 파이프라인인 3DPhysVideo를 소개합니다. 우리는 기존의 비디오 모델을 두 단계로 재사용합니다. 첫째, 렌더링된 포인트 클라우드(point clouds)로 이미지-to-비디오(I2V) Flow 모델을 가이드하여 완전한 360도 3D 장면 기하 구조(geometry)를 재구성하는 새로운 시점 합성기(novel view synthesizer)로 사용합니다. 둘째, 이 기하 구조에 물리 솔버(physics solvers)를 적용한 후, 물리적으로 시뮬레이션된 포인트 클라우드를 동일한 I2V Flow 모델의 가이드로 사용하여 최종적인 고품질 비디오를 합성합니다. I2V Flow 모델의 예측된 속도(velocity)를 디노이징(denoising)과 일관성 편향(consistency bias)으로 분해하는 일관성 가이드 Flow SDE(Consistency-Guided Flow SDE)는 조건부 입력에 대한 일관성을 강제하며, 이를 통해 모델을 3D 재구성 및 시뮬레이션 가이드 비디오 생성 모두에 효과적으로 재사용할 수 있게 합니다. 다중 객체 및 유체 상호작용 장면을 포함한 다양한 실험에서, 우리의 방법은 단일 GPU에서도 효율적으로 실행되면서 단일 이미지에서 물리적으로 타당한 비디오로의 간극을 성공적으로 메웁니다. 본 모델은 GPT 기반 점수, VideoPhy 벤치마크 및 인간 평가(human evaluation)에서 최첨단(state-of-the-art) 베이스라인 모델들을 능가합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0