arXiv논문2026. 05. 29. 12:54

Archon: 총체적 디지털 휴먼 생성을 위한 통합 멀티모달 모델

요약

Archon은 텍스트, 오디오, 모션, 시각적 콘텐츠 등 7가지 양식을 통합하는 인간 중심의 멀티모달 모델입니다. 시맨틱 비디오 재매개변수화와 '양식 내 사고(Thinking in Modality)' 방식을 통해 고충실도 디지털 휴먼 생성을 구현합니다.

핵심 포인트

7가지 양식을 통합하는 네이티브 자기회귀 멀티모달 모델 제시
메모리 효율적인 시맨틱 비디오 재매개변수화로 토큰 4배 감소
단계별 사고를 통한 '양식 내 사고(Thinking in Modality)' 방식 제안
다양한 디지털 휴먼 생성 태스크에서 우수한 성능 입증

디지털 휴먼 (Digital humans)은 몰입형 상호작용의 핵심이지만, 텍스트, 오디오, 모션, 시각적 콘텐츠를 포함한 모든 양식 (modalities)을 아우르는 통합 모델을 구축하는 것은 여전히 해결되지 않은 과제로 남아 있습니다. 본 논문에서는 총체적인 아바타 생성을 위한 완전 사전 학습된 (fully pretrained) 인간 중심의 통합 멀티모달 모델인 Archon을 제시합니다. Archon은 양식별 토크나이저 (modality-specific tokenizers)를 통해 7가지 양식을 통합하며, 동기화된 양식들과 72개의 다양한 태스크를 기반으로 사전 학습된 네이티브 자기회귀 (native autoregressive) 통합 멀티모달 모델을 통해 총체적인 결합 분포 (joint distributions)를 모델링합니다. 고충실도 (high-fidelity) 토킹 비디오에서의 토큰 폭발 문제를 해결하기 위해, 우리는 세밀한 역동성을 유지하면서도 토큰을 4배 감소시키는 메모리 효율적인 시맨틱 비디오 재매개변수화 (semantic video reparameterization)를 도입하였으며, 이를 시맨틱 기반 비디오 확산 디코더 (semantic-driven video diffusion decoder)와 결합하였습니다. 나아가 우리는 모호한 교차 양식 (cross-modal) 태스크를 대안적인 양식의 사슬 (chain of modality) 내에서 단계별 사고로 분해하여, 충실도와 제어 가능성을 점진적으로 향상시키는 "양식 내 사고 (Thinking in Modality)" 방식을 제안합니다. 광범위한 실험을 통해 Archon이 다양한 디지털 휴먼 생성 태스크에서 우수하거나 대등한 성능을 달성함을 입증하였으며, 이는 우리의 통합 프레임워크의 효과를 검증합니다. 프로젝트 페이지: https://zju3dv.github.io/archon/.

AI 자동 생성 콘텐츠

원문 바로가기

Archon: 총체적 디지털 휴먼 생성을 위한 통합 멀티모달 모델

요약

핵심 포인트

댓글