arXiv논문2026. 06. 23. 10:02

Odoriko: 인간 동작을 위한 형태 인식 멀티모달 확산 프레임워크 (A Shape-Aware Multimodal Diffusion

요약

Odoriko는 피사체의 체형과 성별 등 형태학적 정보를 반영하여 인간의 동작을 생성하는 최초의 통합 멀티모달 확산 프레임워크입니다. 텍스트, 음악, 비디오 입력을 통해 단순한 동작 생성을 넘어, '누가' 움직이는지에 맞춘 형태학적 일관성을 제공합니다.

핵심 포인트

피사체의 생체 형태학적 정보를 동작 생성 과정에 직접 반영
텍스트, 음악, 비디오를 통합한 멀티모달 동작 생성 지원
형태학적 정보 부재 시 피사체의 형태를 함께 복원하는 기능 포함
기존 모델 대비 높은 형태학적 일관성 및 표준 지표 성능 입증

인간 동작 생성 (Human motion generation)은 텍스트, 음악, 비디오와 같은 다양한 입력 양식 (modalities)에 걸쳐 널리 연구되어 왔으며, 최근의 노력들은 이를 단일 멀티모달 프레임워크 (multimodal frameworks)로 통합해 왔습니다. 그러나 성별 및 체형과 같은 형태학적 요인 (morphological factors)이 뚜렷한 운동학적 특징 (kinematic signatures)을 생성한다는 사실이 알려져 있음에도 불구하고, 기존의 통합된 프레임워크 중에는 이를 생성 과정에 포함하는 것이 없으며, 모든 피사체를 형태학적으로 동일하게 취급해 왔습니다. 우리는 합성된 동작 출력에 피사체의 생체 형태학적 정보 (bio-morphological information)를 직접 반영하는 최초의 통합 멀티모달 동작 생성 프레임워크인 Odoriko를 제시합니다. Odoriko는 피사체의 변형을 평균화하는 대신, 단일 모델 내에서 텍스트, 음악, 비디오 조건에 걸쳐 단순히 무엇을 하라고 요청받았는지뿐만 아니라, 누가 움직이고 있는지와 일치하는 동작을 생성합니다. 명시적인 형태학적 정보를 사용할 수 없는 경우, Odoriko는 동작과 함께 피사체의 형태 (morphology)를 추가적으로 복원하여, 하나의 프레임워크 내에서 추정 (estimation)과 생성 (generation)을 통합합니다. 텍스트-동작 (text-to-motion), 음악-댄스 (music-to-dance), 비디오-동작 (video-to-motion) 벤치마크에 걸친 광범위한 실험을 통해, Odoriko가 표준 지표에서 기존의 특화된 모델들과 대등하거나 이를 능가하는 동시에, 기존의 어떤 통합 프레임워크도 지원하지 못했던 형태학적 일관성을 갖춘 생성 (morphology-consistent generation)을 가능하게 함을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Odoriko: 인간 동작을 위한 형태 인식 멀티모달 확산 프레임워크 (A Shape-Aware Multimodal Diffusion

요약

핵심 포인트

댓글