AnyAct: 비디오로부터 캐릭터 동작을 활용한 인간 재연(Human Reenactment)을 향하여

우리는 비인간 캐릭터(non-human character)의 단안 비디오(monocular video)로부터 초기 인간 재연(human reenactment)을 직접 도출하는 문제를 연구합니다. 우리의 목표는 소스 캐릭터 자체를 재구성하는 것이 아니라, 그 동작을 다운스트림 애니메이션 제작(animation authoring)을 위한 그럴듯하고 편집 가능한 인간의 퍼포먼스로 재해석하는 것입니다. 이 작업은 기존의 비디오 기반 모션 캡처(motion capture) 방법들이 주로 인간 중심의 구조적 공간에 국한되어 있는 반면, 모션 리타겟팅(motion retargeting) 방법들은 일반적으로 구조화된 3D 소스 동작과 알려진 소스 토폴로지(topology)를 필요로 하기 때문에 매우 도전적입니다. 우리의 핵심 통찰은 희소한 국소 관절 동작 단서(sparse local articulated motion cues)가 큰 구조적 차이 속에서도 필수적인 역학(dynamics)을 보존할 수 있으며, 캐릭터 비디오에서 인간 재연으로 이어지는 안정적인 가교 역할을 할 수 있다는 점입니다. 이러한 관찰을 바탕으로, 우리는 캐릭터 비디오 기반의 인간 재연을 전이 가능한 희소 국소 2D 관절 동작(transferable sparse local 2D articulated motion)으로부터의 조건부 인간 동작 생성(conditional human motion generation)으로 공식화한 AnyAct를 제안합니다. 이를 실용적으로 만들기 위해 우리는 세 가지 핵심 설계를 도입합니다: 증강된 3D-to-2D 투영(3D-to-2D projection)을 통한 인간 동작 전용 감독(human-motion-only supervision), 조건부 모호성(conditioning ambiguity)을 완화하기 위한 점진적 3D-to-2D 학습(progressive 3D-to-2D training), 그리고 신뢰할 수 있는 국소 동작 제어를 위한 전역-국소 동작 디커플링(global-local motion decoupling)입니다. 나아가 우리는 주로 다양한 비인간 캐릭터 비디오를 다루는 벤치마크를 구축했습니다. 벤치마크 실험을 통해 AnyAct가 참조 비디오 속 캐릭터의 필수적인 역학을 보존하면서도 고충실도(high-fidelity)의 초기 인간 재연을 생성함을 보여주며, 추가적인 절제 연구(ablation studies)를 통해 핵심 설계의 효과를 검증합니다.

Insights

AnyAct: 비디오로부터 캐릭터 동작을 활용한 인간 재연(Human Reenactment)을 향하여

요약

핵심 포인트

댓글

Tencent Hy3 공식 출시: 295B Open MoE 모델

그 AI, 루트를 grep으로 뒤지고 있지는 않나요? ── MOC라는 지식 지도로 이끌기

Anthropic의 새로운 Jacobian Lens를 오픈 모델에 테스트해 보았습니다. 결과적으로 로컬 모델의 환각

테슬라 2분기 판매 서프라이즈, FSD가 현금흐름까지 바꾼다

Tencent Hy3 공식 출시: 295B Open MoE 모델

그 AI, 루트를 grep으로 뒤지고 있지는 않나요? ── MOC라는 지식 지도로 이끌기

Anthropic의 새로운 Jacobian Lens를 오픈 모델에 테스트해 보았습니다. 결과적으로 로컬 모델의 환각

테슬라 2분기 판매 서프라이즈, FSD가 현금흐름까지 바꾼다