LeRobot에 VLA-JEPA 출시: 이 모델이 특별한 이유

VLA-JEPA가 LeRobot에 출시되었습니다.
이 모델이 특별한 이유는 주어진 관측값(observation)으로부터 어떤 행동(action)을 취해야 하는지만을 배우는 것이 아니라, 행동과 관련된 역학(dynamics)을 학습하기 위해 JEPA 세계 모델(world model)을 활용한다는 점입니다.

학습 과정에서 VLA는 예측기(predictor)를 조건화(conditioning)함으로써 V-JEPA2를 활용합니다. 이 영리한 트릭은 학습에 세계 모델링 목적 함수(world modeling objective)를 추가하며, 이를 통해 인간의 비디오로 사전 학습(pretraining)하는 것도 가능하게 합니다.
추론(inference) 시에는 세계 모델을 완전히 제거하고, Qwen 백본(backbone)과 액션 헤드(action head)로 구성된 표준 VLA 아키텍처만을 유지합니다.

여기서 보여준 데모는 단 13개의 예시로만 미세 조정(fine-tuned)되었음에도 불구하고, 뛰어난 사전 학습 능력을 보여주며 @NVIDIARobotics DGX Spark에서 실시간으로 실행됩니다!

VLA-JEPA는 LeRobot으로 이식된 첫 번째 세계 모델이며, 이것이 마지막은 아닐 것이라고 생각합니다.
@Thom_Wolf
@ClementDelangue

블로그:
https://ginwind.github.io/VLA-JEPA/
문서:
https://huggingface.co/docs/lerobot/main/en/vla_jepa
…
모델:
https://huggingface.co/collections/lerobot/vla-jepa
…

Insights

LeRobot에 VLA-JEPA 출시: 이 모델이 특별한 이유

요약

핵심 포인트

댓글

테이블, PDF, 스크립트 및 미디어에 대한 RAG 청킹 및 파싱 방법

AI 애플리케이션에서 벡터 검색(Vector Search)을 트러블슈팅하는 방법

Google AI 모드가 단 한 번의 상호작용 후 문맥을 잃는 문제: 연속적인 대화를 위한 메모리 유지(Memory Retention) 수정

에이전트 메모리는 RAG가 아닙니다: 대화 ID, 지속 가능한 상태 및 범위가 지정된 회상

테이블, PDF, 스크립트 및 미디어에 대한 RAG 청킹 및 파싱 방법

AI 애플리케이션에서 벡터 검색(Vector Search)을 트러블슈팅하는 방법

Google AI 모드가 단 한 번의 상호작용 후 문맥을 잃는 문제: 연속적인 대화를 위한 메모리 유지(Memory Retention) 수정

에이전트 메모리는 RAG가 아닙니다: 대화 ID, 지속 가능한 상태 및 범위가 지정된 회상