arXiv논문2026. 06. 15. 04:59

Flex4DHuman: 4D 인간 재구성을 위한 유연한 다중 뷰 비디오 확산 모델

요약

Flex4DHuman은 명시적인 기하학적 정보 없이 상대적 카메라 포즈만으로 단안 또는 희소 다중 뷰 비디오를 동기화된 다중 뷰 비디오로 변환하는 확산 모델입니다. Wan 2.1을 기반으로 구축되었으며, 생성된 비디오를 통해 동적인 4D 가우시안 스플래팅을 생성할 수 있습니다.

핵심 포인트

상대적 카메라 포즈 인코딩을 통한 기하학적 사전 정보 의존성 제거
Wan 2.1 기반의 5축 위치 인코딩 및 시공간 RoPE 확장 적용
3단계 커리큘럼 학습을 통한 포즈 추종 및 시간적 롤아웃 지원
4D 가우시안 스플래팅과 결합하여 고품질 4D 콘텐츠 제작 가능
인간뿐만 아니라 동물 카테고리로도 높은 일반화 성능 입증

우리는 상대적인 카메라 포즈 조건화(relative camera-pose conditioning)만을 사용하여 동적인 피사체의 단안(monocular) 또는 희소 다중 뷰(sparse multi-view) 비디오를 동기화된 밀집 다중 뷰 비디오로 변환하는 다중 뷰 비디오 확산 모델인 Flex4DHuman을 선보입니다. 스켈레톤(skeleton), 깊이 지도(depth maps), 법선(normals) 또는 렌더링된 타겟 뷰 기하 구조(rendered target-view geometry)에 의존하는 기존의 인간 중심 방식과 달리, Flex4DHuman은 명시적인 기하학적 사전 정보(geometry priors)를 필요로 하지 않으며 대신 상대적 카메라 포즈 위치 인코딩(relative camera-pose positional encoding)을 통해 생성을 조건화합니다. 생성된 비디오는 다운스트림 재구성 파이프라인(downstream reconstruction pipelines)에 직접 입력되어 동적인 4D 가우시안 스플래팅(4D Gaussian splats)을 생성할 수 있습니다. Wan 2.1 1.3B 텍스트-비디오(text-to-video) 모델을 기반으로 구축된 Flex4DHuman은 백본 아키텍처(backbone architecture)를 유지하며, 뷰 인덱스(view indices)와 연속적인 SE(3) 상대적 카메라 기하 구조(relative camera geometry)로 시공간 RoPE(spatio-temporal RoPE)를 확장하는 5축 위치 인코딩(five-axis positional encoding)을 통해 카메라 및 뷰 정보를 인코딩합니다. 3단계 커리큘럼(three-stage curriculum)은 포즈 추종(pose following), 유연한 참조-타겟 뷰 생성(flexible reference-to-target view generation), 그리고 시간적 롤아웃(temporal rollout)을 위해 모델을 점진적으로 학습시킵니다. 시간적 롤아웃을 지원하기 위해, 우리는 깨끗한 과거 타겟 뷰 토큰(historical target-view tokens)을 사용하여 학습합니다. 또한 테스트 시 텍스트 제어를 가능하게 하기 위해 다중 뷰 캡션(multi-view captions)을 추가합니다. 기성(off-the-shelf) 4D 가우시안 스플래팅(4D Gaussian Splatting) 단계와 결합하여, 우리의 프레임워크는 단안 정지 카메라 비디오를 동적인 4D 가우시안 스플래트로 격상시킵니다. DNA-Rendering 및 ActorsHQ에 대한 실험 결과, Flex4DHuman은 기존의 최첨단(state-of-the-art) 방식들을 능가하며, 동일한 공식이 인간-동물 혼합 학습 후 동물 카테고리로도 일반화됨을 보여줍니다. 이러한 능력은 Flex4DHuman을 시뮬레이션, 게임, AR/VR 및 비디오 재촬영을 위한 일반적인 단안 비디오로부터 확장 가능한 4D 콘텐츠 제작을 향한 실질적인 단계로 만듭니다.

AI 자동 생성 콘텐츠

원문 바로가기

Flex4DHuman: 4D 인간 재구성을 위한 유연한 다중 뷰 비디오 확산 모델

요약

핵심 포인트

댓글