Flex4DHuman: 4D 인간 재구성을 위한 유연한 다중 뷰 비디오 확산 모델
요약
Flex4DHuman은 단안 또는 희소한 다중 뷰 비디오를 동기화된 밀집 다중 뷰 비디오로 변환하는 확산 모델입니다. 명시적인 기하학적 사전 정보 없이 상대적 카메라 포즈 인코딩만으로 4D 가우시안 스플래팅 생성을 위한 고품질 비디오를 생성합니다.
핵심 포인트
- 상대적 카메라 포즈 인코딩을 통한 기하학적 사전 정보 의존성 제거
- Wan 2.1 모델 기반의 5축 위치 인코딩 및 시공간 RoPE 확장 적용
- 3단계 커리큘럼 학습을 통한 포즈 추종 및 시간적 롤아웃 구현
- 4D 가우시안 스플래팅과 결합하여 동적인 4D 콘텐츠 제작 가능
- 인간뿐만 아니라 동물 범주로도 일반화 가능한 성능 입증
우리는 단안(monocular) 또는 희소한 다중 뷰(sparse multi-view) 비디오를 상대적인 카메라 포즈 조건부(relative camera-pose conditioning)만을 사용하여 동기화된 밀집 다중 뷰 비디오로 변환하는 다중 뷰 비디오 확산 모델인 Flex4DHuman을 제시합니다. 스켈레톤(skeletons), 깊이 맵(depth maps), 노멀(normals) 또는 렌더링된 타겟 뷰 기하 구조(rendered target-view geometry)에 의존하는 기존의 인간 중심 방법들과 달리, Flex4DHuman은 명시적인 기하학적 사전 정보(geometry priors)를 필요로 하지 않으며 대신 상대적 카메라 포즈 위치 인코딩(relative camera-pose positional encoding)을 통해 생성을 조건화합니다. 생성된 비디오는 다운스트림 재구성 파이프라인(downstream reconstruction pipelines)에 직접 입력되어 동적인 4D 가우시안 스플래팅(4D Gaussian splats)을 생성할 수 있습니다. Wan 2.1 1.3B 텍스트-비디오(text-to-video) 모델을 기반으로 구축된 Flex4DHuman은 백본 아키텍처(backbone architecture)를 유지하며, 뷰 인덱스(view indices)와 연속적인 SE(3) 상대적 카메라 기하 구조(continuous SE(3) relative camera geometry)로 시공간 RoPE(spatio-temporal RoPE)를 확장하는 5축 위치 인코딩(five-axis positional encoding)을 통해 카메라 및 뷰 정보를 인코딩합니다. 3단계 커리큘럼(three-stage curriculum)은 포즈 추종(pose following), 유연한 참조-타겟 뷰 생성(flexible reference-to-target view generation), 그리고 시간적 롤아웃(temporal rollout)을 위해 모델을 점진적으로 학습시킵니다. 시간적 롤아웃을 지원하기 위해, 우리는 깨끗한 과거 타겟 뷰 토큰(historical target-view tokens)을 사용하여 학습합니다. 또한 테스트 시 텍스트 제어(text control)를 가능하게 하기 위해 다중 뷰 캡션(multi-view captions)을 추가합니다. 기성(off-the-shelf) 4D 가우시안 스플래팅(4D Gaussian Splatting) 단계와 결합하여, 우리의 프레임워크는 단안 정지 카메라 비디오를 동적인 4D 가우시안 스플래트로 승격시킵니다. DNA-Rendering 및 ActorsHQ에 대한 실험 결과, Flex4DHuman은 기존의 최첨단(state-of-the-art) 방법들을 능가하며, 동일한 정식화(formulation)는 인간-동물 혼합 학습 후 동물 범주로도 일반화됨을 보여줍니다. 이러한 능력은 Flex4DHuman을 시뮬레이션, 게임, AR/VR 및 비디오 재촬영을 위한 일상적인 단안 비디오로부터 확장 가능한 4D 콘텐츠 제작을 향한 실질적인 단계로 만듭니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기