MIND: 텍스트 기반 물리 기반 휴머노이드 제어를 위한 다중 스케일 의도 확산 (Multi-Scale Intent Diffusion)
요약
MIND는 텍스트 명령을 통해 물리 기반 휴머노이드를 제어하는 새로운 엔드투엔드 확산 프레임워크입니다. 다중 스케일 의도 확산 메커니즘을 통해 텍스트와 저수준 동작 사이의 모달리티 격차를 해소하고 자연스러운 동작 합성을 구현합니다.
핵심 포인트
- 텍스트와 동작 간의 의미론적 정렬을 위한 행동 의도 활용
- 전역적 역학을 포착하는 전체론적 의도 예측기 도입
- 국부적 정교화를 위한 즉각적 의도 예측기 메커니즘
- 휴머노이드 상태의 잠재 공간 인코딩을 통한 모델링 강화
물리 기반 휴머노이드 (physics-based humanoids)가 상위 수준의 텍스트 명령으로부터 다양한 동작을 수행할 수 있도록 하는 것은 여전히 중요한 과제로 남아 있습니다. 기존의 방법들은 일반적으로 운동학적 동작 생성 (kinematic motion generation)과 물리 기반 추적 (physics-based tracking)을 결합하는 2단계 패러다임을 따르거나, 텍스트로부터 동작 (actions)을 직접 생성하는 엔드투엔드 모방 학습 (end-to-end imitation-learning) 패러다임을 따릅니다. 그러나 전자는 운동학적 생성과 물리 기반 추적 사이의 내재적인 도메인 시프트 (domain shift) 문제로 어려움을 겪으며, 후자는 텍스트 명령과 저수준 동작 (low-level actions) 사이의 상당한 모달리티 격차 (modality gap)로 인해 효과적인 의미론적 정렬 (semantic alignment)에 한계가 있습니다. 특히, 휴머노이드 상태 (humanoid states)는 저수준 동작보다 텍스트 설명과 더 의미론적으로 정렬된 풍부한 동작 역학 (motion dynamics)을 인코딩하므로, 행동 의도 (behavioral intent)를 도출하기 위한 자연스러운 기초가 됩니다. 이러한 통찰을 바탕으로, 우리는 텍스트 명령과 저수준 동작 사이의 의미론적 가교로서 행동 의도를 활용하는 텍스트 기반 물리 기반 휴머노이드 제어를 위한 새로운 엔드투엔드 확산 (diffusion) 프레임워크인 MIND를 제안합니다. MIND의 핵심은 다중 스케일 의도 확산 (multi-scale intent diffusion) 메커니즘을 도입하는 것으로, 여기서 전체론적 의도 예측기 (holistic intent predictor)는 전반적인 동작 합성을 가이드하기 위해 전역적 행동 역학 (global behavioral dynamics)을 포착하며, 즉각적 의도 예측기 (immediate intent predictor)는 각 확산 단계에서 국부적 동작 정교화 (local behavior refinement)를 위한 단계별 미세 신호를 제공합니다. 이러한 계층적 의도 공식화는 휴머노이드 제어를 위한 구조화된 귀납적 편향 (inductive bias)을 부여하여, 의미론적 정렬과 동작의 자연스러움을 향상시킵니다. 또한, MIND는 더욱 효과적인 의미론적 의도 모델링을 가능하게 하기 위해 휴머노이드 상태를 잠재 공간 (latent space)으로 인코딩합니다. 광범위한 실험을 통해 MIND가 기존 방법보다 뛰어난 성능을 보이며, 텍스트 명령으로부터 일관되고 물리적으로 타당하며 의미론적으로 정렬된 휴머노이드 동작을 합성함을 입증했습니다. 향후 연구를 촉진하기 위해 우리의 코드를 공개할 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기