arXiv논문2026. 06. 10. 10:39

PrismAvatar: 실시간 입체 통신을 위한 의사 다시점 재구성 및 서브픽셀 프리즘 렌더링

요약

PrismAvatar는 단안 비디오를 활용해 실시간 입체 통신을 구현하는 가우시안 헤드 아바타 시스템입니다. 무안경 렌티큘러 디스플레이에 최적화된 의사 다시점 재구성 기술을 통해 몰입형 텔레프레즌스를 제공합니다.

핵심 포인트

단안 아바타 캡처와 서브픽셀 렌더링 결합
의사 다시점(PMV) 감독을 통한 디테일 보존
고스팅 및 깊이 불안정성 억제 기술 적용
최대 38.49 FPS의 실시간 렌더링 성능 달성

실시간 입체 (stereoscopic) 비디오 통신은 몰입형 텔레프레즌스 (telepresence)의 오랜 목표였으나, 실제 시스템들은 여전히 특수한 캡처 장비 (capture rigs)를 필요로 하거나 원격 사용자를 단일 초상화 뷰 (portrait view)로 제한하고 있습니다. 우리는 단안 아바타 캡처 (monocular avatar capture)와 서브픽셀 인코딩된 무안경 렌티큘러 디스플레이 (glasses-free lenticular display)를 연결하여 실시간 자가 입체 (autostereoscopic) 통신을 구현하는 가우시안 헤드 아바타 (Gaussian head-avatar) 시스템인 PrismAvatar를 제안합니다. PrismAvatar는 단안 초상화 비디오로부터 제어 가능한 헤드 아바타를 재구성하고, 디스플레이에 의해 유도되는 측면 시야 영역 (lateral viewing zones)에 맞춰 이를 최적화합니다. 이 방법은 자연스러운 머리 회전을 의사 다시점 (pseudo-multiview, PMV) 감독 (supervision)으로 사용하여, 머리카락, 귀, 턱 윤곽, 목 경계 등 단안 학습 시 관찰이 취약한 영역을 제약합니다. 신뢰할 수 있는 측면 프레임들은 요우 빈 (yaw-binned) 처리되어 가상 카메라에 정렬되며, 엄격한 머리 및 머리카락 도메인 내에서 감독됩니다. 윤곽 인식 손실 함수 (contour-aware losses)와 단계적 정규화 (staged regularization)는 측면 디테일을 보존하면서 고스팅 (ghosting), 알파 누출 (alpha leakage), 깊이 불안정성 (depth instability)을 추가로 억제합니다. 실행 시점에 PrismAvatar는 32개의 가상 뷰를 렌더링하고, 이를 보정된 서브픽셀 라우팅 마스크 (subpixel-routing masks)를 사용하여 4K 렌티큘러 래스터 (lenticular raster)로 인코딩합니다. 라이브 트래커 (live-tracker) 프로토타입은 10.65 FPS를 유지하며, 피험자 특화 증류 드라이버 (subject-specific distilled driver)는 동일한 디스플레이 파이프라인을 38.49 FPS까지 끌어올립니다.

AI 자동 생성 콘텐츠

원문 바로가기

PrismAvatar: 실시간 입체 통신을 위한 의사 다시점 재구성 및 서브픽셀 프리즘 렌더링

요약

핵심 포인트

댓글