본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:55

TelePhysics: 단일 이미지로부터 실시간 상호작용이 가능한 물리 기반 다중 객체 장면 생성

요약

TelePhysics는 단일 이미지로부터 물리적으로 일관되고 제어 가능한 다중 객체 장면을 생성하는 training-free 프레임워크입니다. 통합된 공간 좌표계를 통해 객체 간의 침투 및 정렬 문제를 해결하며, 시뮬레이션과 렌더링을 분리하여 실시간 물리 상호작용과 높은 시각적 충실도를 동시에 달성합니다.

핵심 포인트

  • 단일 이미지를 기반으로 물리적 일관성이 유지되는 3D 장면 생성 가능
  • 통합 공간 좌표계 도입을 통해 객체 간 상호 침투 및 공간적 정렬 불량 문제 해결
  • 시뮬레이션과 렌더링의 분리를 통해 실시간 물리 상호작용 미리보기 구현
  • 기존 비디오 생성 모델의 한계인 제어 가능성과 물리적 정확성 개선

최근의 생성형 비디오 모델(generative video models)은 인상적인 시각적 품질을 달성했지만, 제한된 물리적 일관성(physical consistency)과 제어 가능성(controllability)으로 인해 여전히 제약을 받고 있습니다. 기존의 비디오 생성 방법들은 최소한의 물리적 제어만을 제공하며, 단일 이미지-to-3D 변환 방식은 객체 간의 상호 침투(object interpenetration) 문제를 겪는 경우가 많습니다. 또한, 물리 기반의 장면 수준(scene-level) 3D 생성 방법들은 공간적 정렬 불량(spatial misalignment), 스타일화된 아티팩트(stylized artifacts), 그리고 입력 데이터와의 불일치를 보이며, 이는 사실적인 상호작용 비디오 합성(interactive video synthesis)에서의 사용을 제한합니다.

우리는 전체적인 장면 수준의 3D 재구성(3D reconstruction)을 통해 단일 이미지를 물리적으로 일관되고 제어 가능한 비디오로 변환하는 학습이 필요 없는(training-free) 프레임워크인 TelePhysics를 제안합니다. 전체 장면의 기하학적 구조(geometry)를 통합된 공간 좌표계(spatial coordinate system)로 표현함으로써, TelePhysics는 객체 침투 및 정렬 모호성 문제를 해결합니다. 이전 방법들과 달리, 이 공식화는 정확한 장면 수준의 다중 객체 상호작용을 가능하게 하며, 고급 역학 기반 조작(mechanics-based manipulation)을 위한 더 풍부하고 복잡한 제어 유형을 도입합니다. 시뮬레이션(simulation)을 렌더링(rendering)으로부터 분리함으로써, TelePhysics는 지연 시간이 큰 사전 정보(priors)를 우회하여, 사진과 같은 시각적 충실도(visual fidelity)를 유지하는 동시에 실시간 물리 상호작용 미리보기를 달성합니다. 실험 결과는 TelePhysics가 물리적 충실도, 공간적 일관성(spatial coherence), 그리고 제어 가능성 측면에서 기존 방법들을 실질적으로 능가함을 입증합니다. 오픈 소스 코드는 https://github.com/xinzhang007/TelePhysics 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0