HuggingFace헤드라인2026. 05. 08. 01:41

π0 and π0-FAST: Vision-Language-Action Models for General Robot Control

요약

본 기사는 로봇의 범용 지능을 구현하기 위한 Vision-Language-Action (VLA) 모델인 π0와 π0-FAST를 소개합니다. 이 모델들은 기존 LLM/VLM이 부족했던 물리적 세계와의 상호작용 능력을 보완하며, 대규모 사전 학습과 흐름 매칭 기반 액션 생성을 통해 다양한 로봇 플랫폼에서 정교한 조작 작업을 수행할 수 있도록 설계되었습니다. π0는 7개 로봇 플랫폼의 68가지 고유 작업 데이터로 훈련되어 범용적인 로봇 제어 능력을 입증했습니다.

핵심 포인트

π0와 π0-FAST는 일반적인 로봇 제어를 위한 Vision-Language-Action (VLA) 모델입니다.
이 모델들은 LLM/VLM의 한계인 물리적 세계와의 상호작용 문제를 해결하는 데 중점을 둡니다.
범용 로봇 정책(로봇 파운데이션 모델) 개발은 대규모 연구, 다양한 데이터 통합을 위한 아키텍처 설계, 효과적인 학습 레시피라는 세 가지 주요 과제를 안고 있습니다.
π0는 7개 로봇 플랫폼과 68가지 작업 데이터를 사용하여 훈련되었으며, 이는 뛰어난 일반화 및 강건성을 보여줍니다.

π0 and π0-FAST: Vision-Language-Action Models for General Robot Control

We have ported the first robotics foundation models to Hugging Face LeRobot! Both π0 and π0-FAST, developed by Physical Intelligence, are now available in the LeRobot repository, bringing generalist robotic intelligence to the Hugging Face ecosystem. If you are curious about how Vision-Language-Action (VLA) models differ from Vision-Language Models (VLMs) and how actions are represented, dive into this blog post to find out!

Explore the model collection and the PyTorch Version of the model in our repository: Huggingface collection of Pi0 models | Huggingface collection of Pi0+FAST models | LeRobot repo

Robert Heinlein suggests that a well-rounded person should be capable of handling a wide range of tasks—both intellectual and physical—rather than being narrowly specialized in one field. Drawing a parallel between a well-rounded person and machine intelligence: AI systems vary widely, but human intelligence excels in versatility—adapting to tasks, environments, and surprises. While large language and vision-language models (LLMs, VLMs) show promise, they lack interaction with the physical world. To bridge this gap, we need models trained on robotic data. Generalist robot models can enhance adaptability, using diverse data to improve generalization and robustness. Instead of training on isolated tasks, pre-training on varied robotic data—similar to LLMs—boosts efficiency and performance.

Developing generalist robot policies, or robot foundation models, presents three key challenges:

The need for large-scale research to fully leverage pre-training benefits.Designing model architectures that can integrate diverse data sources while capturing complex physical interactions. A key challenge in this regard is cross-embodiment training, where a model must learn from diverse robot types with varying configurations, control spaces, and action representations. Existing approaches tackle this by:** Combining multimodal datasets from different robotic platforms to enhance generalization.Using shared representations to bridge the gap between distinct robot morphologies, such as single-arm, dual-arm, and mobile manipulators.

Crafting an effective training recipe, as recent advances in NLP and vision have heavily relied on careful pre-training and post-training strategies.

In this post, we introduce π0 and π0-FAST, prototype models and learning frameworks developed by Physical Intelligence, designed to overcome these challenges.

π0 (Pi-Zero) is a Vision-Language-Action (VLA) model, developed by the Physical Intelligence team designed for generalist robot control. It builds upon large-scale pretraining and flow matching-based action generation, enabling robots to perform dexterous manipulation tasks across different embodiments.

π0 is trained on data from 7 robotic platforms and 68 unique tasks, demonstrating strong zero-shot and fine-tuned performance on complex, real-world tasks such as laundry folding, table bussing, grocery bagging, box assembly, and object retrieval.

표준 로봇 정책과 달리, π0 는 플로우 매칭 (flow matching) 을 사용하여 50Hz 에서 매끄러운 실시간 동작 궤적을 생성하며, 이는 실제 배포에 매우 효율적이고 정밀하며 적응력이 뛰어납니다. 플로우 매칭은 연속 정규화 흐름 (continuous normalizing flows) 과 확산 모델의 생성 품질 개선에도 사용되었습니다. π0 는 노이즈를 시작점으로 사용하여 의미 있는 모터 동작 시퀀스로 점진적으로 수렴하는 방식으로 작동합니다.

먼저, transformers 를 의존성으로 사용하는 lerobot 설치를 업그레이드해야 합니다. git clone 후 다음 명령어를 실행하세요:

pip install -e ".[pi0]"

π0 모델은 PaliGemma와 마찬가지로 다양한 프레임워크, 환경 및 장면 입력에 적응하도록 설계된 기초 모델입니다. 특히 π0 는 그대로 사용 가능합니다.

python lerobot/scripts/eval.py \ 
--pretrained_policy.path=/path/to/pretrained/pi0

하지만 JAX 에서 PyTorch 로, 특정 환경에서 변환되므로 성능이 감소합니다. 우리는 π0 를 자체 환경에 맞게 미세 조정 (fine-tuning) 하는 것을 권장합니다.

openpi 의 pi0_base 체크포인트를 사용하여 π0 모델을 미세 조정하려면 다음 명령어를 실행하세요:

python lerobot/scripts/train.py \ 
--policy.path=lerobot/pi0 \ 
--dataset.repo_id=danaaubakirova/koch_test

PaliGemma 와 Expert Gemma 를 사용하여 π0 신경망을 미세 조정할 때, π0 미세 조정 전에 VLM 기본 파라미터로 사전 학습 (pretrained) 한 경우 다음 명령어를 실행하세요:

python lerobot/scripts/train.py \ 
--policy.type=pi0 \ 
--dataset.repo_id=danaaubakirova/koch_test

LeRobot 훈련 프레임워크와 별도로 사전 학습된 π0 모델을 사용할 수 있습니다.

policy = Pi0Policy.from_pretrained("lerobot/pi0")

비전-언어 모델 (VLMs) 과 비전-언어-행동 모델 (VLAs) 은 공통된 기초인 트랜스포머를 공유합니다. 그러나 핵심적인 차이는 행동 표현입니다. VLM 은 다중 모달 표현 (이미지 및 텍스트) 을 처리하고 생성하지만, VLAs 는 이를 행동 및 관찰 상태 토큰을 포함하여 확장합니다. 이러한 추가 토큰이就位한 후 다음 과제는 주의가 어떻게 계산되는지를 이해하는 것입니다.

우리의 어휘를 확장하고 주요 용어를 소개해 보겠습니다:

이는 로봇의 현재 환경 상태 (예: 관절 각도, 센서 값 또는 기타 관련 관찰) 를 나타내는 단일 토큰입니다. - 마스킹 규칙은 이 토큰이 프록시 이미지 및 텍스트에 주의할 수 있도록 허용하며, 상태 토큰은 의사결정을 위한 시각적 또는 텍스트적 단서를 "볼" 수 있습니다. - 또한 삼각형 방식으로 이전 상태를 주의합니다. 여러 상태 토큰이 사용되면 각 새로운 상태 토큰은 더 오래된 것을 볼 수 있지만 역반환은 불가능합니다.
모터 명령 시퀀스를 나타냅니다. - 패딩 영역을 제외한 모든 것에 대해 전체 가시성을 갖습니다. 즉, 각 행동 토큰은 다음에 주의할 수 있습니다: 모든 패딩이 없는 이미지 토큰 (전체 장면), 모든 패딩이 없는 텍스트 토큰 (지시사항 또는 설명), 상태 토큰 (현재 및 이전), 기타 행동 토큰.
전체 장면을 나타내며 서로 완전히 주의하며, PaliGemma와 유사합니다.

이러한 토큰은 다음을 포함합니다:

로봇의 환경 내 표현 (상태), - 로봇이 발령하는 명령 또는 제어 (행동), - 시간 또는 단계 인덱스의 인코딩 (시간 임베딩).

이미지 및 텍스트 (images + text) 와 접두사 (prefix) 부분 뒤에 이어 붙여지며, 접두사는 컨텍스트 (예: 장면 이미지, *

대부분의 기존 VLAs 는 연속 행동 토큰화 (discrete action tokenization) 를 사용하여 연속적인 행동을 자기회귀적으로 생성되는 이산 토큰으로 변환합니다. 가장 일반적인 방법인 차원별, 시간 단계별 양자화는 고주파 제어 작업에서 어려움을 겪어 손실 표현과 비효율적인 훈련을 초래합니다. 벡터 양자화 (VQ) 와 시간 시리즈 압축 같은 대안도 도움이 되지만, VQ 는 하이퍼파라미터에 민감하여 다양한 로봇 설계에 덜 신뢰할 수 있습니다.

이러한 문제를 해결하기 위해, **주파수-공간 행동 시퀀스 토큰화 (Frequency-space Action Sequence Tokenization, FAST)**는 Discrete Cosine Transform (DCT) 를 사용하여 새로운 시간 시리즈 압축 접근법을 소개합니다. FAST 는 중복을 줄이고 효율성을 개선하며 행동 충실도를 향상시킵니다.

이를 바탕으로, π0-FAST를 제시합니다. 이는 Lerobot 저장소에서 사용할 수 있는 π0의 더 빠르고 자기회귀적인 버전으로, 이 새로운 토크나이저를 활용하여 더 나은 행동 표현을 제공합니다.

논문 | Jax 코드 | Lerobot 내 우리 구현

π0-FAST 는 **자기회귀 버전 (autoregressive version)**인 π0 으로, 효율성과 성능을 향상시키는 새로운 토큰화 스키엄인 **FAST (Frequency-space Action Sequence Tokenization)**를 소개합니다.

5 배 빠른 훈련 (diffusion-based VLAs 와 비교).향상된 행동 표현, 행동 시퀀스 내 중복 감소.강력한 일반화, 보이지 않는 환경과 로봇 모폴로지에서.

🔗 π0-FAST 토크나이저는 여기에서 접근할 수 있습니다: FAST Tokenizer

🔗 사전 훈련된 가중치는 여기에서 접근할 수 있습니다: Pi0+FAST

FAST 는 Discrete Cosine Transform (DCT) 를 사용하여 연속적인 행동 시퀀스를 이산 토큰으로 압축합니다. 과정은 Figure 2 에서 설명되며, 원시 로봇 행동을 정규화하고 각 행동 차원의 1 번째와 99 번째 양자화를 [-1,1] 범위로 매핑하는 것으로 시작합니다. 이러한 정규화는 서로 다른 로봇 시스템 간의 일관성을 보장하고 이상치에 대한 견고성을 개선하기 위해 사용됩니다.

각 행동 차원은 DCT 를 사용하여 독립적으로 변환되며, 시간 영역 신호를 주파수 영역으로 변환합니다. 중복을 줄이기 위해, scale-and-round 연산을 통해 불필요한 계수를 제거하며, 압축률과 재구성 정확도를 균형시키는 하이퍼파라미터가 사용됩니다. 결과적인 DCT 계수 행렬은 일반적으로 희소하며, 저주파 성분이 먼저 차원 간에 교차하여 중요한 정보를 보존하도록 1 차원 정수 시퀀스로 평면화됩니다.

시퀀스를 더 압축하기 위해 Byte Pair Encoding (BPE) 가 적용됩니다. BPE 는 일반적인 경우와 같이 자주 발생하는 패턴을 통합하며 고정된 크기의 어휘를 유지합니다.

Figure 2: FAST 행동 토큰화 파이프라인 *

모든 작업이 역전 가능하므로, 토큰에서 효율적이고 손실 없이 행동을 재구성할 수 있습니다. 토큰화 파이프라인은 두 가지 하이퍼파라미터만 가지고 있습니다: 반올림 전에 적용되는 스케일링 계수와 BPE 어휘 크기입니다. 이 두 파라미터는 서로 다른 데이터셋에서도 견고합니다.

또한, **FAST+**라는 이름의 FAST 의 범용 버전이 단일 팔, 양손 조작, 모바일 조작 로봇에서 100 만 개의 행동 시퀀스 데이터를 기반으로 훈련되었으며, 다양한 로봇 설정에 적용 가능합니다. FAST+ 는 Hugging Face AutoProcessor로 제공되며, 사용자는 몇 줄의 코드만으로 행동 시퀀스를 토큰화할 수 있습니다.

최적의 압축을 위해, 입력 행동을 토큰화 전에 [-1,1] 로 양자화 정규화해야 합니다. AutoProcessor 모듈을 사용하면 사용자가 자신의 데이터셋에 커스텀 FAST 토크나이저를 훈련할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

π0 and π0-FAST: Vision-Language-Action Models for General Robot Control

요약

핵심 포인트

π0 and π0-FAST: Vision-Language-Action Models for General Robot Control

댓글