R-DMesh: Rectified Dynamic Mesh Flow를 통한 비디오 가이드 기반 3D 애니메이션
요약
R-DMesh는 비디오 가이드 기반 3D 애니메이션에서 발생하는 '포즈 불일치 딜레마'를 해결하기 위해 제안된 통합 프레임워크입니다. 이 방법은 입력 메쉬의 초기 포즈를 참조 비디오의 시작 상태에 자동으로 맞추는 '교정 점프 오프셋(rectification jump offset)'을 도입합니다. R-DMesh는 조건부 베이스 메쉬, 상대적 모션 궤적, 그리고 교정 오프셋을 분리하여 물리적 일관성을 유지하며 고충실도 4D 메쉬를 생성할 수 있습니다.
핵심 포인트
- R-DMesh는 비디오 가이드 기반 애니메이션의 핵심 문제인 포즈 불일치(pose misalignment) 문제를 해결합니다.
- 새로운 VAE 구조를 도입하여 입력 메쉬의 임의 포즈를 비디오 초기 상태에 맞추는 '교정 점프 오프셋'을 학습하고 분리 처리합니다.
- Triflow Attention과 Rectified Flow 기반 Diffusion Transformer를 사용하여 물리적 일관성과 국부적 강성을 보장하며 4D 메쉬를 생성합니다.
- Video-RDMesh라는 대규모 데이터셋(50만 개 이상의 동적 메쉬 시퀀스)을 구축하여 모델의 성능을 입증했습니다.
비디오 가이드 기반 3D 애니메이션 (Video-guided 3D animation)은 동적 자산 (dynamic assets)에 대한 직관적이고 정밀한 제어를 제공하여 콘텐츠 제작 분야에서 엄청난 잠재력을 보유하고 있습니다. 그러나 실제 배포 시에는 중요하지만 자주 간과되는 장애물인 포즈 불일치 딜레마 (pose misalignment dilemma)에 직면하게 됩니다. 실제 시나리오에서 사용자가 제공한 정적 메쉬 (static mesh)의 초기 포즈가 참조 비디오 (reference video)의 시작 프레임과 일치하는 경우는 드뭅니다. 일치하지 않는 궤적 (trajectory)을 메쉬가 따르도록 무리하게 강제하면 필연적으로 심각한 기하학적 왜곡 (geometric distortion)이나 애니메이션 실패로 이어집니다.
이를 해결하기 위해, 우리는 비디오 컨텍스트 (video context)에 맞춰 '교정된 (rectified)' 고충실도 4D 메쉬를 생성하도록 설계된 통합 프레임워크인 Rectified Dynamic Mesh (R-DMesh)를 제안합니다. 표준적인 모션 전이 (motion transfer) 방식과 달리, 우리의 방법은 입력을 조건부 베이스 메쉬 (conditional base mesh), 상대적 모션 궤적 (relative motion trajectories), 그리고 핵심적인 교정 점프 오프셋 (rectification jump offset)으로 명시적으로 분리하는 새로운 VAE를 도입합니다. 이 오프셋은 애니메이션이 시작되기 전, 입력 메쉬의 임의의 포즈를 비디오의 초기 상태와 일치하도록 자동으로 변환하도록 학습됩니다.
우리는 이러한 구성 요소들을 Triflow Attention 메커니즘을 통해 처리하며, 이는 정점 단위 (vertex-wise) 기하학적 특징을 활용하여 세 가지 직교 흐름 (orthogonal flows)을 조절함으로써 교정 및 애니메이션 과정 동안 물리적 일관성 (physical consistency)과 국부적 강성 (local rigidity)을 보장합니다. 생성을 위해, 우리는 사전 학습된 비디오 잠재 변수 (video latents)를 조건으로 하는 Rectified Flow 기반 Diffusion Transformer를 채택하여, 풍부한 시공간적 사전 정보 (spatio-temporal priors)를 3D 도메인으로 효과적으로 전이합니다.
이 작업을 지원하기 위해, 우리는 포즈 불일치를 시뮬레이션하도록 특별히 큐레이션된 50만 개 이상의 동적 메쉬 시퀀스로 구성된 대규모 데이터셋인 Video-RDMesh를 구축했습니다. 광범위한 실험을 통해 R-DMesh가 정렬 문제를 해결할 뿐만 아니라 포즈 리타겟팅 (pose retargeting) 및 전체적인 4D 생성 (holistic 4D generation)을 포함한 강력한 다운스트림 애플리케이션을 가능하게 함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기