arXiv논문2026. 05. 25. 16:49

SCRIPT: 언어 기반 물리 기반 휴머노이드 제어를 위한 다단계 학습 기반의 확장 가능한 확산 정책 (Scalable Diffusion

요약

자연어 지시로 물리 기반 휴머노이드를 제어하는 다단계 학습 프레임워크 SCRIPT를 제안합니다. JAST-DiT를 통해 언어와 제어 역학을 통합하고, RLHR 사후 학습을 통해 동작 품질과 지시 이행 능력을 극대화했습니다.

핵심 포인트

JAST-DiT를 통한 행동, 상태, 텍스트의 공동 어텐션 결합
비선형 이력 조건화로 안정적인 자기회귀 제어 구현
RLHR(혼합 보상 강화학습)을 통한 동작 및 지시 이행 성능 향상
MotionMillion 데이터셋을 통한 대규모 확장성 입증

자연어 지시를 통해 물리 기반 휴머노이드 (physics-based humanoids)를 제어하는 것은 범용적인 체화된 에이전트 (embodied agents)로 나아가기 위한 중요한 단계입니다. 그러나 기존 방식들은 의미론적 표현력 (semantic expressiveness)과 물리적 실행 가능성 (physical feasibility) 사이의 긴장 관계로 인해 제약을 받고 있으며, 충실한 지시 이행 (instruction following), 고품질 동작 (high-quality motion), 그리고 안정적인 장기 제어 (stable long-horizon control)를 동시에 달성하는 데 종종 실패합니다. 우리는 언어 기반 물리 기반 휴머노이드 제어를 위한 다단계 학습 프레임워크를 갖춘 확장 가능한 확산 정책 (scalable diffusion policy)인 SCRIPT를 제안합니다. SCRIPT의 핵심은 공동 행동-상태-텍스트 확산 트랜스포머 (Joint Action-State-Text Diffusion Transformer, JAST-DiT)로, 이는 행동 (actions), 물리적 상태 (physical states), 그리고 텍스트를 전용 토큰 스트림 (token streams)으로 표현하고 이를 공동 어텐션 (joint attention)을 통해 결합하여, 언어 의미론 (language semantics)과 제어 역학 (control dynamics) 사이의 직접적인 상호작용을 가능하게 합니다. 자기회귀 제어 (autoregressive control)를 안정화하기 위해, 우리는 비선형 이력 조건화 (nonlinear history conditioning) 메커니즘을 도입하여, 밀집된 최근 문맥 (dense recent context)을 보존하고 장기 이력 (long-term history)으로부터 점진적으로 희소해지는 단서 (sparse cues)를 샘플링합니다. 지도 학습 기반의 모방 사전 학습 (supervised imitation pre-training)을 넘어, 우리는 혼합 보상 강화학습 (Reinforcement Learning with Hybrid Rewards, RLHR)을 사용하여 성능을 더욱 향상시키는 사후 학습 (post-training) 단계를 제안합니다. 흐름 샘플링 (flow-sampling) 과정에 학습 가능한 노이즈를 주입함으로써, RLHR은 혼합 물리 피드백 (hybrid physical feedback)과 텍스트 보상 (text rewards)을 사용하는 폐루프 시뮬레이션 (closed-loop simulations) 내에서 동작 품질과 지시 이행 능력을 효과적으로 개선합니다. 정량적 평가 결과, SCRIPT는 텍스트 정렬 (text alignment), 동작 품질 (motion quality), 그리고 물리적 실재감 (physical realism) 지표 전반에서 기존의 최첨단 (state-of-the-art) 방식들을 능가함을 입증했습니다. 또한, 1200시간 분량의 MotionMillion 데이터셋에 대한 확장성 연구 (scaling studies)는 모델 확장에 따른 일관된 성능 향상을 보여주며, 대규모 사전 학습에 대한 SCRIPT의 강력한 확장성 (scalability)을 강조합니다. 우리의 코드는 향후 연구를 위해 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

SCRIPT: 언어 기반 물리 기반 휴머노이드 제어를 위한 다단계 학습 기반의 확장 가능한 확산 정책 (Scalable Diffusion

요약

핵심 포인트

댓글