LeRobot v0.5.0 출시: 휴머노이드부터 VLA 모델까지 로봇 학습의 모든 것을 확장하다
요약
LeRobot v0.5.0은 지원 하드웨어 범위를 대폭 확장하고, 최신 AI 정책을 도입하며, 전체 시스템 성능을 개선한 주요 업데이트입니다. 가장 큰 변화는 Unitree G1 휴머노이드 전신 제어(Whole-Body Control)를 완벽하게 통합했다는 점입니다. 또한, Pi0-FAST (자가회귀적 Vision-Language-Action 모델), Wall-X (Qwen2.5-VL 기반 VLA), X-VLA (Florence-2 기반 VLA) 등 6가지 새로운 정책을 추가하여 로봇 학습의 다양성을 높였습니다. 실시간 추론 성능을
핵심 포인트
- Unitree G1 휴머노이드 전신 제어(WBC)를 최초로 통합하여, 테이블탑 암에서 전신 임베디드 AI로 진화했습니다.
- Pi0-FAST는 자가회귀적 Vision-Language-Action 모델을 도입하고 Real-Time Chunking (RTC) 기술을 지원하여 실시간 추론 지연 시간을 획기적으로 개선했습니다.
- Qwen2.5-VL 기반의 Wall-X와 Florence-2 기반의 X-VLA 등 다양한 최신 VLA 정책이 추가되어 로봇 학습 모델의 선택 폭이 넓어졌습니다.
- Earth Rover, OpenArm Mini 등 새로운 모바일/로봇 팔 하드웨어 지원과 CAN 통신을 통한 고성능 액추에이터 연결이 가능해졌습니다.
LeRobot v0.5.0은 로봇 학습 플랫폼의 모든 측면(하드웨어, 정책, 성능)에서 대대적인 확장을 이룬 주요 업데이트입니다. 본 버전은 단순한 암(arm) 기반 시스템을 넘어 전신 임베디드 AI로 진화하며, 오픈소스 로봇 학습의 새로운 지평을 열었습니다.
🤖 하드웨어 생태계 확장: 휴머노이드 시대 개막
가장 주목할 만한 변화는 Unitree G1 휴머노이드에 대한 완벽한 지원입니다. 이는 LeRobot 역사상 최초의 휴머노이드 통합 사례이며, 단순한 움직임을 넘어선 복합적인 능력을 제공합니다.
- 전신 제어 (Whole-Body Control, WBC): 보행(Locomotion), 정교한 물체 조작(Manipulation), 원격 조종(Teleoperation)을 동시에 수행할 수 있도록 신체를 통합적으로 제어하는 것이 가능해졌습니다. 이는 LeRobot이 테이블탑 수준을 넘어 범용 로봇 시스템으로 도약했음을 의미합니다.
- 추가 지원 하드웨어: OpenArm 및 그 보조 장치인 OpenArm Mini의 지원도 강화되었습니다. 두 장비 모두 양팔(bi-manual) 구성을 지원하여 복잡한 조작 임무를 수행할 수 있습니다.
- 모바일/고성능 액츄에이터: 야외 탐색을 위한 첫 모바일 로봇 통합인 Earth Rover가 추가되었으며, CAN (Controller Area Network) 버스를 통해 RobStride나 Damiao 같은 고토크(high-torque) 기반의 전문급 모터 컨트롤러를 연결할 수 있게 되어 시스템 성능과 호환성이 대폭 향상되었습니다.
🧠 AI 정책 및 학습 방법론 혁신: 6가지 새로운 엔진
LeRobot은 오픈소스 로봇 학습의 경계를 넓히는 6가지 최첨단 정책(Policy)을 도입했습니다. 이들은 다양한 기반 모델과 학습 패러다임을 활용합니다.
- Pi0-FAST: Pi0의 흐름 일치(flow-matching) 접근법에서 벗어나, Gemma 300M 기반의 자가회귀적 Vision-Language-Action (VLA) 전문가를 사용합니다. FAST (Frequency-space Action Sequence Tokenization) 토큰화를 통해 행동을 이산화된 토큰으로 생성하며, 이는 빠른 추론 속도와 유연한 디코딩이 가능하게 합니다.
- Real-Time Chunking (RTC): Pi0-FAST 등 기존의 흐름 일치 정책에 적용 가능한 실시간 추론 기법입니다. 전체 행동 청크가 완료되기를 기다리는 대신, 예측을 지속적으로 현재 진행 중인 행동과 혼합(blending)하여 훨씬 부드럽고 반응성이 뛰어난 동작을 구현합니다. 이는 실제 환경 배포 시 지연 시간(latency) 문제를 해결하는 핵심 기술입니다.
- Wall-X: Qwen2.5-VL 기반의 VLA 정책으로, 강력한 Vision-Language 이해 능력을 흐름 일치 행동 예측에 결합하여 교차 임베디드 로봇 제어에 활용됩니다.
- X-VLA: Microsoft의 Florence-2 비전-언어 모델을 백본(backbone)으로 사용하는 VLA 정책으로, 다양한 기반 모델 선택권을 제공합니다.
- SARM (Stage-Aware Reward Modeling): 장기 목표 임무(long-horizon tasks) 학습의 어려움을 해결하기 위해 도입되었습니다. 전체 에피소드에 대한 단일한 진행 신호 대신, '단계 인식적' 방식으로 작업 단계와 해당 단계 내의 진행도를 예측하여 복잡한 다단계 조작 임무 학습을 용이하게 합니다.
- PEFT 지원: LoRA 등 PEFT (Parameter-Efficient Fine-Tuning) 방법을 통해 대규모 VLA 모델을 코어 훈련 파이프라인 수정 없이 특정 로봇 및 작업에 맞게 미세 조정(fine-tune)할 수 있게 되어, 컴퓨팅 자원 효율성이 극대화되었습니다.
✨ 시스템 성능 개선: 사용자 경험 최적화
사용자 편의성 측면에서도 큰 진전이 있었습니다. 데이터셋 파이프라인에서 스트리밍 비디오 인코딩(streaming video encoding)을 도입하여, 에피소드 녹화 후 기다려야 했던 영상 인코딩 대기 시간을 완전히 제거했습니다. 이는 데이터 수집 및 훈련 속도를 획기적으로 향상시킵니다.
결론적으로 LeRobot v0.5.0은 하드웨어의 물리적 확장(휴머노이드)과 소프트웨어의 지능적 확장(최신 VLA 모델, RTC)을 동시에 달성하며, 오픈소스 로봇 공학 플랫폼으로서의 위상을 한 단계 끌어올렸습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기