AnyAct: 비디오로부터 캐릭터 동작을 활용한 인간 재연(Human Reenactment)을 향하여
요약
AnyAct는 비인간 캐릭터의 단안 비디오에서 동작을 추출하여 인간의 퍼포먼스로 재해석하는 새로운 인간 재연(Human Reenactment) 기술을 제안합니다. 기존 방식의 한계를 극복하기 위해 희소한 국소 2D 관절 동작을 활용하여 캐릭터의 역학을 보존하면서도 편집 가능한 인간 동작을 생성합니다. 이를 위해 3D-to-2D 투영 감독, 점진적 학습, 전역-국소 동작 디커플링이라는 세 가지 핵심 설계를 도입했습니다.
핵심 포인트
- 비인간 캐릭터 비디오로부터 인간의 동작을 생성하는 새로운 프레임워크 AnyAct 제안
- 희소한 국소 2D 관절 동작을 사용하여 캐릭터와 인간 사이의 구조적 차이 극복
- 3D-to-2D 투영 및 점진적 학습을 통해 조건부 모호성 완화
- 전역-국소 동작 디커플링을 통한 신뢰할 수 있는 국소 동작 제어 구현
- 다양한 비인간 캐릭터를 포함하는 새로운 벤치마크 구축
우리는 비인간 캐릭터(non-human character)의 단안 비디오(monocular video)로부터 초기 인간 재연(human reenactment)을 직접 도출하는 문제를 연구합니다. 우리의 목표는 소스 캐릭터 자체를 재구성하는 것이 아니라, 그 동작을 다운스트림 애니메이션 제작(animation authoring)을 위한 그럴듯하고 편집 가능한 인간의 퍼포먼스로 재해석하는 것입니다. 이 작업은 기존의 비디오 기반 모션 캡처(motion capture) 방법들이 주로 인간 중심의 구조적 공간에 국한되어 있는 반면, 모션 리타겟팅(motion retargeting) 방법들은 일반적으로 구조화된 3D 소스 동작과 알려진 소스 토폴로지(topology)를 필요로 하기 때문에 매우 도전적입니다. 우리의 핵심 통찰은 희소한 국소 관절 동작 단서(sparse local articulated motion cues)가 큰 구조적 차이 속에서도 필수적인 역학(dynamics)을 보존할 수 있으며, 캐릭터 비디오에서 인간 재연으로 이어지는 안정적인 가교 역할을 할 수 있다는 점입니다. 이러한 관찰을 바탕으로, 우리는 캐릭터 비디오 기반의 인간 재연을 전이 가능한 희소 국소 2D 관절 동작(transferable sparse local 2D articulated motion)으로부터의 조건부 인간 동작 생성(conditional human motion generation)으로 공식화한 AnyAct를 제안합니다. 이를 실용적으로 만들기 위해 우리는 세 가지 핵심 설계를 도입합니다: 증강된 3D-to-2D 투영(3D-to-2D projection)을 통한 인간 동작 전용 감독(human-motion-only supervision), 조건부 모호성(conditioning ambiguity)을 완화하기 위한 점진적 3D-to-2D 학습(progressive 3D-to-2D training), 그리고 신뢰할 수 있는 국소 동작 제어를 위한 전역-국소 동작 디커플링(global-local motion decoupling)입니다. 나아가 우리는 주로 다양한 비인간 캐릭터 비디오를 다루는 벤치마크를 구축했습니다. 벤치마크 실험을 통해 AnyAct가 참조 비디오 속 캐릭터의 필수적인 역학을 보존하면서도 고충실도(high-fidelity)의 초기 인간 재연을 생성함을 보여주며, 추가적인 절제 연구(ablation studies)를 통해 핵심 설계의 효과를 검증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기