arXiv논문2026. 06. 12. 12:34

VideoMDM: 2D 감독으로부터의 3D 인간 동작 생성을 향하여

요약

VideoMDM은 단안 2D 포즈로부터 3D 인간 동작을 생성하는 확산 기반 프레임워크입니다. 이 모델은 별도의 3D 정답 데이터 없이 3D 동작 사전 지식을 학습하며, 2D 재투영 손실과 표준 3D 정규화 기법을 결합하여 높은 성능을 달성했습니다.

핵심 포인트

단안 비디오에서 3D 인간 동작 생성 가능
별도의 3D 정답 데이터 없이 3D 사전 지식 학습
2D 재투영 손실로 3D 감독 효과 구현
HumanML3D 및 실제 비디오 데이터셋에서 강력한 성능 입증

우리는 VideoMDM을 소개합니다. 이는 단안(monocular) 비디오에서 추출된 정확한 2D 포즈로부터, 어떠한 3D 정답 데이터 없이 직접 3D 인간 동작 사전 지식(priors)을 학습하는 확산 기반 프레임워크입니다. 사전에 훈련된 2D-to-3D 리프터가 근사적인 3D 포즈 시퀀스를 제공하며, 이는 노이즈가 있는 교사 신호(noisy teacher) 역할을 합니다. 이 신호는 3D에서 확산되고 모델에 의해 디노이징되며, 예측을 재투영하고 정확한 키포인트와 비교하여 2D에서 감독됩니다. 우리는 온건한 가정 하에서 깊이 가중치 2D 재투영 손실(depth-weighted 2D reprojection loss)이 기대값 측면에서 직접적인 3D 감독과 동등함을 보여주며, 표준 3D 동작 정규화 기법들—속도 일관성(velocity consistency) 및 과매개변수 표현 정렬(over-parameterized representation alignment)—을 이 2D 설정에 맞게 적용합니다. 오직 추론 시에만 2D를 3D로 리프팅하는 방법들과 달리, VideoMDM은 학습 과정 동안 일관된 3D 동작 다양체(motion manifold)를 학습합니다. HumanML3D 데이터셋에서는 완전히 3D 감독되는 MDM과 거의 격차를 해소하며 (FID 0.88 vs 0.54); Fit3D 및 NBA와 같은 실제 비디오 데이터셋에서는 이 방법이 인간이 선호하는 동작을 생성하도록 학습했으며, 강력한 정량적 결과를 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

VideoMDM: 2D 감독으로부터의 3D 인간 동작 생성을 향하여

요약

핵심 포인트

댓글