LeRobot에 VLA-JEPA 출시: 이 모델이 특별한 이유
요약
LeRobot에 출시된 VLA-JEPA는 JEPA 세계 모델을 활용하여 행동과 관련된 역학을 학습하는 모델입니다. 인간의 비디오로 사전 학습이 가능하며, 추론 시에는 세계 모델 없이 표준 VLA 아키텍처로 효율적인 실행이 가능합니다.
핵심 포인트
- JEPA 세계 모델을 통한 행동 역학 학습
- 인간 비디오를 활용한 사전 학습 가능
- 추론 시 세계 모델을 제거하여 효율성 확보
- 단 13개의 예시로도 뛰어난 미세 조정 성능 증명
- NVIDIA Robotics DGX Spark에서 실시간 실행 가능
VLA-JEPA가 LeRobot에 출시되었습니다.
이 모델이 특별한 이유는 주어진 관측값(observation)으로부터 어떤 행동(action)을 취해야 하는지만을 배우는 것이 아니라, 행동과 관련된 역학(dynamics)을 학습하기 위해 JEPA 세계 모델(world model)을 활용한다는 점입니다.
학습 과정에서 VLA는 예측기(predictor)를 조건화(conditioning)함으로써 V-JEPA2를 활용합니다. 이 영리한 트릭은 학습에 세계 모델링 목적 함수(world modeling objective)를 추가하며, 이를 통해 인간의 비디오로 사전 학습(pretraining)하는 것도 가능하게 합니다.
추론(inference) 시에는 세계 모델을 완전히 제거하고, Qwen 백본(backbone)과 액션 헤드(action head)로 구성된 표준 VLA 아키텍처만을 유지합니다.
여기서 보여준 데모는 단 13개의 예시로만 미세 조정(fine-tuned)되었음에도 불구하고, 뛰어난 사전 학습 능력을 보여주며 @NVIDIARobotics DGX Spark에서 실시간으로 실행됩니다!
VLA-JEPA는 LeRobot으로 이식된 첫 번째 세계 모델이며, 이것이 마지막은 아닐 것이라고 생각합니다.
@Thom_Wolf
@ClementDelangue
블로그:
https://ginwind.github.io/VLA-JEPA/
문서:
https://huggingface.co/docs/lerobot/main/en/vla_jepa
…
모델:
https://huggingface.co/collections/lerobot/vla-jepa
…
AI 자동 생성 콘텐츠
본 콘텐츠는 X 홈 추천 피드의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기