HuggingFace헤드라인2026. 05. 08. 01:41

π0 및 π0-FAST: 범용 로봇 제어를 위한 비전-언어-액션 모델

요약

본 기사는 로봇의 범용 지능을 구현하기 위한 Vision-Language-Action (VLA) 모델인 π0와 π0-FAST를 소개합니다. 이 모델들은 기존 LLM/VLM이 부족했던 물리적 세계와의 상호작용 능력을 보완하며, 대규모 사전 학습과 흐름 매칭 기반 액션 생성을 통해 다양한 로봇 플랫폼에서 정교한 조작 작업을 수행할 수 있도록 설계되었습니다. π0는 7개 로봇 플랫폼의 68가지 고유 작업 데이터로 훈련되어 범용적인 로봇 제어 능력을 입증했습니다.

핵심 포인트

π0와 π0-FAST는 일반적인 로봇 제어를 위한 Vision-Language-Action (VLA) 모델입니다.
이 모델들은 LLM/VLM의 한계인 물리적 세계와의 상호작용 문제를 해결하는 데 중점을 둡니다.
범용 로봇 정책(로봇 파운데이션 모델) 개발은 대규모 연구, 다양한 데이터 통합을 위한 아키텍처 설계, 효과적인 학습 레시피라는 세 가지 주요 과제를 안고 있습니다.
π0는 7개 로봇 플랫폼과 68가지 작업 데이터를 사용하여 훈련되었으며, 이는 뛰어난 일반화 및 강건성을 보여줍니다.

π0 및 π0-FAST: 범용 로봇 제어를 위한 비전-언어-액션 모델

저희는 첫 번째 **로보틱스 파운데이션 모델(robotics foundation models)**을

Hugging Face LeRobot에 포팅했습니다! Physical Intelligence가 개발한 π0 및 π0-FAST 모두 이제 LeRobot 리포지토리에서 사용 가능하며, Hugging Face 생태계에 범용 로봇 지능을 가져왔습니다. 비전-언어-액션(Vision-Language-Action, VLA) 모델이 비전-언어 모델(Vision-Language Models, VLMs)과 어떻게 다른지, 그리고 액션은 어떻게 표현되는지에 대해 궁금하다면 이 블로그 게시물을 읽어보세요!

저희 리포지토리에서 모델 컬렉션과 PyTorch 버전의 모델을 확인하세요: Huggingface collection of Pi0 models | Huggingface collection of Pi0+FAST models | LeRobot repo

로버트 하인라인(Robert Heinlein)은 균형 잡힌 사람은 한 분야에만 편협하게 전문화되기보다는 지적, 신체적 측면을 아우르는 다양한 작업을 처리할 수 있어야 한다고 제안합니다. 균형 잡힌 사람과 기계 지능 사이에 평행선을 그어보면: AI 시스템은 매우 다양하지만, 인간의 지능은 다재다능함에서 탁월하며 작업, 환경, 그리고 예상치 못한 상황에 적응하는 능력을 보여줍니다. 대규모 언어 모델(LLMs) 및 비전-언어 모델(VLMs)이 가능성을 보여주고 있지만, 물리적 세계와의 상호작용이 부족합니다. 이 격차를 해소하기 위해서는 로봇 데이터로 훈련된 모델이 필요합니다. 범용 로봇 모델은 다양한 데이터를 사용하여 일반화(generalization)와 강건성(robustness)을 향상함으로써 적응성을 높일 수 있습니다. 고립된 작업에 대해 훈련하는 대신, LLMs와 유사하게 다양한 로봇 데이터로 사전 학습(pre-training)하면 효율성과 성능이 향상됩니다.

범용 로봇 정책 또는 로봇 파운데이션 모델을 개발하는 것은 세 가지 주요 과제를 제시합니다:

1. 전이 학습(pre-training) 이점을 완전히 활용하기 위한 대규모 연구의 필요성.
2. 복잡한 물리적 상호작용을 포착하면서 다양한 데이터 소스를 통합할 수 있는 모델 아키텍처 설계. 이와 관련하여 핵심 과제는 **교차 체화 학습(cross-embodiment training)**입니다. 여기서 모델은 구성, 제어 공간 및 액션 표현이 다른 다양한 유형의 로봇으로부터 학습해야 합니다. 기존 접근 방식들은 다음을 통해 이를 해결합니다:

다중 모드 데이터셋 결합: 일반화를 향상하기 위해 서로 다른 로봇 플랫폼의 다중 모드 데이터셋을 사용합니다.
공유 표현(shared representations) 사용: 단일 팔, 이중 팔, 이동식 매니퓰레이터와 같이 뚜렷한 로봇 형태학(robot morphologies) 사이의 격차를 해소하기 위해 공유 표현을 사용합니다.

3. 효과적인 학습 레시피(training recipe) 구성. 최근 NLP 및 비전 분야의 발전은 신중한 사전 학습 및 사후 학습 전략에 크게 의존해 왔습니다.

본 게시물에서 저희는 π0 및 π0-FAST를 소개합니다. 이는 프로토타입 모델이자 학습 프레임워크입니다.

AI 자동 생성 콘텐츠

원문 바로가기

π0 및 π0-FAST: 범용 로봇 제어를 위한 비전-언어-액션 모델

요약

핵심 포인트

π0 및 π0-FAST: 범용 로봇 제어를 위한 비전-언어-액션 모델

댓글