HANDOFF: 증류된 상호 보완적 교사 모델을 통한 휴머노이드 에이전트의 태스크 공간 전신 제어 (Whole-Body Control)
요약
휴머노이드 로봇의 태스크 계획과 전신 제어 사이의 인터페이스를 개선하는 HANDOFF 프레임워크를 제안합니다. 다중 교사 KL 증류 방식을 통해 동작 추적, 보행, 낙상 회복 전문가 모델을 하나의 학생 모델로 통합하여 Unitree G1 로봇에서 뛰어난 성능을 입증했습니다.
핵심 포인트
- 컴팩트하고 명시적인 명령 공간 인터페이스 제안
- 다중 교사 KL 증류를 통한 전문가 혼합(MoE) 모델 구현
- 보행, 동작 추적, 낙상 회복 기술의 통합 제어
- VLM 기반 에이전트 플래너와의 하드웨어 연동 성공
휴머노이드 로봇이 실제 환경에 배치되기 위해서는 명령 공간(command space, 즉 태스크 계획(task planning)과 전신 제어(whole-body control) 사이의 인터페이스)의 선택이 매우 중요합니다. 기존의 전신 제어기(whole-body controllers)는 일반적으로 플래너(planner)가 태스크 의미론(task semantics)으로부터 합성하기 어려운 조밀한 운동학적(kinematic) 또는 공간적 참조(spatial references)를 요구합니다. 우리는 대신 직관적이고, 일반적이며, 모듈화되어 있고, 다양한 조작 기술(manipulation skills)에 대해 충분히 표현력이 있는 컴팩트하고 명시적인 인터페이스를 제안합니다. 이를 위해, 우리는 HANDOFF를 소개합니다. HANDOFF는 이 인터페이스를 따르는 단일 휴머노이드 전신 제어기로, 컨텍스트 조건부 게이팅 스킴(context-conditioned gating scheme) 하에서 다중 교사 KL 증류(multi-teacher KL distillation)를 통해 세 가지 상호 보완적인 전문가(specialists)로부터 전문가 혼합(mixture-of-experts) 학생 모델로 증류됩니다. 이 전문가들은 안전 필터링된 데이터를 사용한 전신 동작 추적(whole-body motion tracking), 보행(locomotion), 그리고 낙상 회복(fall-recovery)입니다. Unitree G1 로봇에서 HANDOFF는 최첨단(state-of-the-art) 속도 추적 성능을 보여주며, 가장 넓은 범위의 견고한 조작 작업 공간(manipulation workspaces) 중 하나를 제공합니다. 나아가 우리는 태스크별 데이터나 제어기 미세 조정(fine-tuning) 없이도, VLM(Vision-Language Model) 기반의 에이전트형 플래너(agentic planner)를 통해 구동되는 여러 자연어 기반 태스크 실행(task roll-outs)을 통해 하드웨어 구현 가능성을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기