arXiv논문2026. 06. 16. 13:37

VEPHand: 대규모 환경에서의 시점 효율적인 광도 기반 손 퍼포먼스 캡처

요약

VEPHand는 적은 수의 시점과 마스크 없는 이미지 환경에서도 정밀한 3D 손 퍼포먼스 캡처를 가능하게 하는 엔드투엔드 파이프라인을 제안합니다. 신경망 기반의 장면 매개변수화와 물리 기반 프레임워크를 통해 복잡한 손 움직임과 자기 접촉 상황에서도 높은 재구성 충실도를 보여줍니다.

핵심 포인트

약 20개의 시점만으로도 고품질 3D 손 재구성 가능
마스크 없이도 상세한 기하학적 구조와 외형 추출
물리 기반 프레임워크를 통한 비선형 피부 변형 및 자기 접촉 해결
12,000개 이상의 시퀀스를 활용한 대규모 데이터셋 구축 및 확장성 입증

강력하고 고충실도의 3D 손 캡처 (hand capture)는 디지털 휴먼 생성에 필수적이지만, 풍부한 광도 (photometry)와 제한된 시점 밀도로 인해 발생하는 재구성 (reconstruction)의 기하학적 모호성 사이의 균형을 맞추는 실용적인 다중 시점 (multi-view) 시스템을 구축하는 데 여전히 어려움이 있습니다. 본 논문은 특히 시점 효율적인 설정($\sim$20개 시점)을 위해 설계된 동적 손 퍼포먼스 캡처 (performance capture) 및 등록 (registration)을 위한 엔드투엔드 (end-to-end) 파이프라인을 제시합니다. 우리는 두 가지 주요 혁신을 통해 핵심 과제들을 해결합니다. 첫째, 제한된 시점 중첩 및 배경 혼란과 같은 재구성의 어려움을 극복하기 위해, 우리의 마스크 프리 (mask-free) 신경망 방식은 장면 매개변수화 (scene parameterization) 및 시나리오별 밀도 정규화 (density regularization)를 사용하여 마스크가 없는 이미지로부터 상세한 손의 기하학적 구조 (geometry)와 외형 (appearance)을 견고하게 추출합니다. 둘째, 비선형 피부 변형 (non-linear skin deformations)을 정확하게 포착하고 심한 자기 접촉 (self-contact) 상황에서도 타당한 결과를 보장하는 것과 같은 등록 문제를 해결하기 위해, 우리는 물리 기반 (physics-inspired) 프레임워크를 제안합니다. 이는 포즈 매개변수 (pose parameters)와 함께 정준 사면체 메쉬 (canonical tetrahedral mesh) 내의 고유한 볼륨 오프셋 (volumetric offsets)을 최적화함으로써 재구성된 결과물을 개인화된 손 모델에 정렬합니다. 견고한 손실 함수 (losses)와 최적화 (optimization)로 뒷받침되는 이 접근 방식은 미세한 표면 변형을 포착하고, 심한 관절 움직임 및 자기 접촉 하에서도 타당한 결과를 보장하며, 입력 노이즈에 대한 강력한 내성을 입증합니다. 우리는 12,000개 이상의 시퀀스로 구성된 광범위한 데이터셋을 통해 자동화된 파이프라인의 확장성 (scalability)과 견고성 (robustness)을 입증하였으며, 이로부터 다운스트림 태스크 (downstream tasks) 학습을 위한 대규모 고품질 합성 2D/3D 손 데이터셋을 도출했습니다. 이는 단일 손, 복잡한 양손 상호작용, 그리고 자연스러운 손-물체 조작 (hand-object manipulations)에 대한 효과를 보여줍니다. 우리의 방법은 시점 효율적이고 마스크가 없는 시나리오에서 최첨단 (state-of-the-art) 재구성 충실도와 매우 정확한 등록을 달성합니다. 우리 프로젝트 페이지는 https://zyshen021.github.io/VEPHand/ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

VEPHand: 대규모 환경에서의 시점 효율적인 광도 기반 손 퍼포먼스 캡처

요약

핵심 포인트

댓글