arXiv논문2026. 06. 16. 12:31

Flex4DHuman: 4D 인간 재구성을 위한 유연한 다중 뷰 비디오 확산 모델

요약

Flex4DHuman은 단안 또는 희소한 다중 뷰 비디오를 동기화된 밀집 다중 뷰 비디오로 변환하는 확산 모델입니다. 명시적인 기하학적 사전 정보 없이 상대적 카메라 포즈 인코딩만으로 4D 가우시안 스플래팅 생성을 위한 고품질 비디오를 생성합니다.

핵심 포인트

상대적 카메라 포즈 인코딩을 통한 기하학적 사전 정보 의존성 제거
Wan 2.1 모델 기반의 5축 위치 인코딩 및 시공간 RoPE 확장 적용
3단계 커리큘럼 학습을 통한 포즈 추종 및 시간적 롤아웃 구현
4D 가우시안 스플래팅과 결합하여 동적인 4D 콘텐츠 제작 가능
인간뿐만 아니라 동물 범주로도 일반화 가능한 성능 입증

우리는 단안(monocular) 또는 희소한 다중 뷰(sparse multi-view) 비디오를 상대적인 카메라 포즈 조건부(relative camera-pose conditioning)만을 사용하여 동기화된 밀집 다중 뷰 비디오로 변환하는 다중 뷰 비디오 확산 모델인 Flex4DHuman을 제시합니다. 스켈레톤(skeletons), 깊이 맵(depth maps), 노멀(normals) 또는 렌더링된 타겟 뷰 기하 구조(rendered target-view geometry)에 의존하는 기존의 인간 중심 방법들과 달리, Flex4DHuman은 명시적인 기하학적 사전 정보(geometry priors)를 필요로 하지 않으며 대신 상대적 카메라 포즈 위치 인코딩(relative camera-pose positional encoding)을 통해 생성을 조건화합니다. 생성된 비디오는 다운스트림 재구성 파이프라인(downstream reconstruction pipelines)에 직접 입력되어 동적인 4D 가우시안 스플래팅(4D Gaussian splats)을 생성할 수 있습니다. Wan 2.1 1.3B 텍스트-비디오(text-to-video) 모델을 기반으로 구축된 Flex4DHuman은 백본 아키텍처(backbone architecture)를 유지하며, 뷰 인덱스(view indices)와 연속적인 SE(3) 상대적 카메라 기하 구조(continuous SE(3) relative camera geometry)로 시공간 RoPE(spatio-temporal RoPE)를 확장하는 5축 위치 인코딩(five-axis positional encoding)을 통해 카메라 및 뷰 정보를 인코딩합니다. 3단계 커리큘럼(three-stage curriculum)은 포즈 추종(pose following), 유연한 참조-타겟 뷰 생성(flexible reference-to-target view generation), 그리고 시간적 롤아웃(temporal rollout)을 위해 모델을 점진적으로 학습시킵니다. 시간적 롤아웃을 지원하기 위해, 우리는 깨끗한 과거 타겟 뷰 토큰(historical target-view tokens)을 사용하여 학습합니다. 또한 테스트 시 텍스트 제어(text control)를 가능하게 하기 위해 다중 뷰 캡션(multi-view captions)을 추가합니다. 기성(off-the-shelf) 4D 가우시안 스플래팅(4D Gaussian Splatting) 단계와 결합하여, 우리의 프레임워크는 단안 정지 카메라 비디오를 동적인 4D 가우시안 스플래트로 승격시킵니다. DNA-Rendering 및 ActorsHQ에 대한 실험 결과, Flex4DHuman은 기존의 최첨단(state-of-the-art) 방법들을 능가하며, 동일한 정식화(formulation)는 인간-동물 혼합 학습 후 동물 범주로도 일반화됨을 보여줍니다. 이러한 능력은 Flex4DHuman을 시뮬레이션, 게임, AR/VR 및 비디오 재촬영을 위한 일상적인 단안 비디오로부터 확장 가능한 4D 콘텐츠 제작을 향한 실질적인 단계로 만듭니다.

AI 자동 생성 콘텐츠

원문 바로가기

Flex4DHuman: 4D 인간 재구성을 위한 유연한 다중 뷰 비디오 확산 모델

요약

핵심 포인트

댓글