본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 07. 17:07

SmolVLA: 소비자 하드웨어에서 실행되는 컴팩트 오픈소스 비전-언어-행동 모델 소개

요약

SmolVLA는 소비자 하드웨어에서 실행 가능하도록 설계된 컴팩트하고 오픈소스인 비전-언어-행동(VLA) 모델입니다. 이 모델은 공개 커뮤니티 데이터셋만을 사용하여 훈련되었으며, 대규모 독점 모델에 의존하던 VLA 분야의 접근성 문제를 해결합니다. SmolVLA는 효율적인 아키텍처 설계와 비동기 추론 스택을 통해 기존의 거대 모델들과 동등하거나 그 이상의 성능을 보이면서도 응답 속도를 획기적으로 개선했습니다.

핵심 포인트

  • 소비자 하드웨어(CPU, 단일 GPU 등)에서 구동 가능한 컴팩트한 VLA 모델을 제공하여 로봇 공학 연구의 접근성을 높였습니다.
  • 공개 커뮤니티 데이터셋만을 사용하여 훈련되었으며, 독점적이고 비용이 많이 드는 대규모 사설 데이터셋 의존도를 낮췄습니다.
  • 비동기 추론 스택을 도입하여 응답 속도를 30% 향상시키고 작업 처리량을 2배 증가시켰습니다.
  • 효율적인 아키텍처(트랜스포머 + 플로우 매칭 디코더, 레이어 건너뛰기 등)를 통해 적은 데이터와 에너지로도 높은 성능을 달성했습니다.

오늘, 우리는 소비자 하드웨어에서 실행되는 컴팩트 (4.5 억) 오픈소스 비전-언어-행동 (VLA) 모델을 소개합니다.

  • 호환 라이선스 및 오픈소스 커뮤니티 공유 데이터셋 (lerobot 태그 포함) 만으로 사전 학습됨.
  • SmolVLA-450M 은 시뮬레이션 (LIBERO, Meta-World) 과 실제 세계 작업 (SO100, SO101) 에서 ACT 와 같은 더 큰 VLAs 및 강력한 베이스라인을 능가함.
  • 비동기 추론을 지원하여 30% 빠른 응답2 배의 작업 처리량 제공.

유용한 링크:

최근 몇 년 동안, 트랜스포머는 인간과 유사한 추론을 할 수 있는 언어 모델부터 이미지와 텍스트를 모두 이해하는 다중 모달 시스템에 이르기까지 AI 의 놀라운 발전을 주도해 왔습니다. 그러나 실제 세계 로봇 공학에서는 진보가 훨씬 느렸습니다. 로봇은 여전히 다양한 객체, 환경, 작업에 걸쳐 일반화하는 데 어려움을 겪고 있습니다. 이러한 제한된 진보는 고품질의 다양성 데이터 부족과 물리적 세계에서 인간처럼 추론하고 행동할 수 있는 모델의 부재에서 비롯됩니다.

이러한 도전 과제를 해결하기 위해, 해당 분야는 최근 비전-언어-행동 (VLA) 모델으로 주목을 받고 있습니다. VLA 모델은 단일 아키텍처 내에서 인식, 언어 이해 및 행동 예측을 통합하려는 목표입니다. VLAs 는 일반적으로 원시 시각적 관찰과 자연어 지시를 입력으로 받아 대응하는 로봇 행동을 출력합니다. 유망하지만, 최근 VLAs 의 많은 진보는 대규모 사설 데이터셋으로 훈련된 독점 모델 뒤에 잠겨 있으며, 종종 비용이 많이 드는 하드웨어 설정 및 광범위한 엔지니어링 자원이 필요함을 의미합니다.

결과적으로, 더 넓은 로봇 공학 연구 커뮤니티는 이러한 모델을 재현하고 구축하는 데 심각한 장애물에 직면해 있습니다.

SmolVLA 는 공개 데이터셋 만을 사용하여 소비자 등급 하드웨어에서 훈련할 수 있는 오픈소스, 컴팩트하며 효율적인 VLA 모델을 제공함으로써 이 격차를 해결합니다. 모델 가중치뿐만 아니라 매우 저렴한 오픈소스 하드웨어를 함께 출시함으로써, SmolVLA 는 비전-언어-행동 모델에 대한 접근성을 민주화하고 일반적 로봇 에이전트 연구 가속화를 목표로 합니다.

Figure 1: SmolVLA 의 작업 변형에 따른 비교. 왼쪽에서 오른쪽으로: (1) 비동기 피크 플레이스 큐브 카운팅, (2) 동기 피크 플레이스 큐브 카운팅, (3) 왜곡 하의 피크 플레이스 큐브 카운팅, (4) 실제 세계 SO101 의 피크 앤 플레이스 일반화.

SmolVLA-450M 은 우리의 오픈소스 컴팩트하지만 능동적인 VLA 모델입니다. 이는:

  • CPU 에서 실행 가능하고, 단일 소비자 GPU 에서 훈련하거나 심지어 MacBook! 에서도 가능합니다.
  • 공개 커뮤니티 공유 로봇 공학 데이터로 훈련됨.
  • 전체 훈련 및 추론 레시피를 함께 출시함.
  • 매우 저렴한 하드웨어 (SO-100, SO-101, LeKiwi 등) 에서 테스트 및 배포 가능함.

대규모 언어 모델 (LLMs) 의 훈련 패러다임에 영감을 받아 SmolVLA 는 일반 조작 데이터 사전 학습 단계와 작업 특화 후 훈련 단계를 거칩니다. 아키텍처적으로, 트랜스포머와 플로우 매칭 디코더를 결합하며, 다음과 같은 설계 선택으로 속도 및 저지연 추론을 최적화합니다.

Vision 모델의 레이어 절반을 건너뛰어 추론 속도를 높이고 크기를 줄임
자아주의 (self-attention) 블록과 교차주의 (cross-attention) 블록을 교차 배치
시각 토큰 수를 줄이기
작은 사전 학습 VLM 을 활용
30k 에너의 훈련 에피소드 (다른 VLAs 의 10 배 미만) 를 사용함에도 불구하고, SmolVLA 는 시뮬레이션과 실제 세계에서 훨씬 큰 모델들과 동등하거나 초과하는 성능을 보입니다.

실시간 로봇 공학을 더 쉽게 사용하기 위해 비동기 추론 스택을 소개합니다. 이 기술은 로봇이 행동을 수행하는 방식과 무엇을 보는지, 듣는지를 이해하는 방식을 분리합니다. 이러한 분리로 인해 로봇은 빠르게 변화하는 환경에서 더 빠르게 반응할 수 있습니다.

Figure 2. SmolVLA 는 여러 카메라의 RGB 이미지 시퀀스, 로봇의 현재 센서 운동 상태 (sensorimotor state), 그리고 자연어 지시를 입력으로 사용합니다. VLM 은 이를 컨텍스트적 특징으로 인코딩하며, 이는 행동 전문가 (action expert) 에게 연속적인 행동 시퀀스를 생성하도록 조건부 (conditioning) 합니다.

SmolVLA 는 사용자 친화적이고 통합이 쉽도록 설계되었습니다—자신의 데이터로 파인튜닝하거나 기존 로봇 공학 스택에 플러그인을 넣는 경우에도 마찬가지입니다.

먼저 필요한 의존성을 설치합니다:

git clone https://github.com/huggingface/lerobot.git
cd lerobot
pip install -e ".[smolvla]"

smolvla_base
, 450M 모델인 사전 학습 모델을 lerobot 훈련 프레임워크와 함께 사용하세요:

python lerobot/scripts/train.py \n--policy.path=lerobot/smolvla_base \n--dataset.repo_id=lerobot/svla_so100_stacking \n...

아키텍처 (사전 학습 VLM + 행동 전문가) 에서부터 빌드하고 싶다면:

python lerobot/scripts/train.py \n--policy.type=smolvla \n--dataset.repo_id=lerobot/svla_so100_stacking \n...

또한 SmolVLAPolicy
를 직접 로드할 수 있습니다:

from lerobot.common.policies.smolvla.modeling_smolvla import SmolVLAPolicy
policy = SmolVLAPolicy.from_pretrained("lerobot/smolvla_base")

SmolVLA 는 경량화되었지만 강력한 모델뿐만 아니라 일반적 로봇 공학 정책을 훈련하고 평가하는 방법이기도 합니다. 이 섹션에서는 SmolVLA 의 모델 아키텍처 와 평가에 사용된 비동기 추론 설정을 소개합니다. 이는 더 적응적이고 빠른 회복이 가능함을 입증했습니다.

SmolVLA 는 두 가지 핵심 구성 요소로 이루어져 있습니다: 다중 모달 입력 (multimodal inputs) 을 처리하는 Vision-Language Model (VLM)로봇 제어 명령을 출력하는 action expert. 아래에서는 SmolVLA 아키텍처의 주요 구성 요소와 비동기 추론에 대한 세부 사항을 공유합니다. 자세한 내용은 기술 보고서에서 찾을 수 있습니다.

우리는 VLM 백본으로 SmolVLM2 를 사용합니다. 이는 다중 이미지 입력을 최적화했으며, SigLIP 시각 인코더와 SmolLM2 언어 디코더로 구성됩니다.

**이미지 토큰 (Image tokens)**은 시각 인코더를 통해 추출됩니다.**언어 지시 (Language instructions)**는 토크나이징되며 직접 디코더에 입력됩니다.**센서 운동 상태 (Sensorimotor states)**는 선형 레이어를 사용하여 언어 모델의 토큰 차원과 정렬되도록 단일 토큰으로 투영됩니다.

디코더 레이어는 연결된 이미지, 언어, 상태 토큰을 처리합니다. 생성된 특징은 행동 전문가로 전달됩니다.

SmolVLA 의 action expert 는 VLM 의 출력을 조건으로 하여 미래 로봇 동작의 시퀀스 (action chunks) 를 생성하는 컴팩트한 트랜스포머 (~100M 파라미터) 입니다. 이 모델은 flow matching objective 를 사용하여 학습되며, 이는 모델이 노이즈 샘플을 실제 값으로 되돌리는 것을 가르치는 방식으로 작동합니다. 반면, 디스크리트 동작 표현 (예: 토큰화) 은 강력하지만 종종 자기회귀 (autoregressive) 디코딩을 필요로 하므로 추론 시점에서는 느리고 비효율적입니다. flow matching 은 연속된 동작의 직접적이고 자기회귀가 아닌 예측을 가능하게 하여, 높은 정밀도로 실시간 제어를 지원합니다.

보다 직관적으로 설명하면, 학습 과정에서 로봇의 실제 동작 시퀀스에 랜덤 노이즈를 추가하고, 이를 올바른 궤적 (trajectory) 으로 되돌리도록 "수정 벡터" (correction vector) 를 예측하도록 요청합니다. 이는 동작 공간에 대해 매끄러운 벡터 필드를 형성하여 모델이 정확한 안정적인 제어 정책을 학습하는 데 도움을 줍니다.

우리는 interleaved attention blocks 를 가진 트랜스포머 아키텍처를 사용하여 이를 구현하며 (그림 2 참조), 히든 사이즈를 VLM 의 75% 로 줄여 배포용 경량 모델을 유지합니다.

최근 VLA 시스템 (예: Pi0, GR00T, Diffusion Policy) 에서 시각 - 언어 모델과 동작 예측 모듈을 결합하는 것은 일반적인 디자인 패턴이지만, 우리는 견고성과 성능을 크게 향상시키는 몇 가지 아키텍처 선택을 식별했습니다. SmolVLA 에서는 세 가지 핵심 기술을 적용합니다: 시각 토큰 수 감소, VLM 의 상단 레이어 건너뛰기, 그리고 action expert 에서 크로스 - 자기attention 레이어의 교차 배치.

고해상도 이미지는 인식 향상을 가져오지만 추론 속도를 현저히 늦출 수 있습니다. 균형을 맞추기 위해 SmolVLA 는 학습 및 추론 시 프레임당 시각 토큰 수를 64 개로 제한합니다. 예를 들어, 512×512 이미지는 PixelShuffle라는 효율적인 셔플링 기법을 사용하여 1024 개의 토큰 대신 64 개로 압축됩니다. 원래 VLM 은 더 넓은 커버리지를 위해 이미지 타일링을 사용하여 사전 학습되었으나, SmolVLA 는 런타임에 전역 이미지만 사용하여 추론을 경량화하고 빠르게 유지합니다.

VLM 의 마지막 레이어에만 의존하는 대신 (이는 비싸고 때로는 최적적이지 않을 수 있음), 중간 레이어의 특징 (features) 을 사용합니다. 기존 연구는 초기 레이어가 후속 작업에 더 나은 표현을 제공하는 것을 보여줍니다.
SmolVLA 에서는 action expert 가 학습 중에는 설정 가능한 레이어 NN 까지의 VLM 특징에만 attends 하며, 이는 총 레이어의 반수로 설정됩니다. 이는 VLM 과 action expert 의 계산 비용을 반으로 줄여, 최소한의 성능 손실로 추론 속도를 크게 향상시킵니다.

action expert 내부에서 attention 레이어는 다음과 같이 교차 배치됩니다:

크로스 - attention (CA), 여기서 동작 토큰은 VLM 의 특징에 attends 합니다.
자기 - attention (SA), 여기서 동작 토큰은 서로 (인과적 - 과거에만) attends 합니다.

우리는 이 교차 배치 디자인이 전체 attention 블록을 사용하는 것보다 가볍고 더 효과적임을 발견했습니다. CA 나 SA 만 의존하는 모델은 매끄러움이나 그라운딩 중 하나를 희생하는 경향이 있습니다.
SmolVLA 에서 CA 는 동작이 인식 및 지시사항에 잘 조건부 (conditioned) 되도록 보장하며, SA 는 시간적 매끄러움을 향상시킵니다. 이는 실제 세계 제어에서 진동 예측은 안전하지 않거나 불안정한 결과를 초래할 수 있으므로 매우 중요합니다.

Figure 3. 비동기 추론 (Asynchronous inference). 비동기 추론 스택의 일러스트레이션. 정책이 원격 서버에서 실행될 수 있으며, GPU 가 있을 수도 있음을 주목하세요.

현대적인 시각 - 운동 정책 (visuomotor policies) 은 action chunks(실행할 행동 시퀀스) 를 출력합니다. 이를 관리하는 두 가지 방식이 있습니다:

**동기 (Synchronous):**로봇이 한 chunk 를 실행한 후 다음 chunk 가 계산될 때까지 기다립니다. 단순하지만, 로봇이 새로운 입력에 반응할 수 없는 지연을 초래합니다.

**비동기 (Asynchronous):**현재 chunk 를 실행하는 동안, 로봇은 이미 다음 chunk 를 위해 Policy Server(GPU 에서 호스팅 될 수도 있음) 에 최신 관측치를 전송합니다. 이는 대기 시간을 피하고 반응성을 향상시킵니다.

우리의 비동기 스택은 행동 실행과 chunk 예측을 분리하여 더 높은 적응성과 실행 지연의 완전한 부재를 보장합니다. 다음 핵심 메커니즘에 의존합니다:

**1. 초기 트리거 (Early trigger):**큐 길이가 임계값 (예: 70%) 이하로 떨어질 때, 우리는 Policy Server에 관측치를 전송하여 새로운 action chunk 를 요청합니다.

**2. 분리된 스레드 (Decoupled threads):**제어 루프는 계속 실행되고 → 추론은 병행적으로 발생 (블록킹 없음).

**3. Chunk fusion:**연속적인 chunk 에서의 겹치는 행동들은 단순한 merge rule 로 이어져 진동 (jitter) 을 피합니다.

우리는 비동기 추론을 출시하는 데 매우 설렙니다. 이는 모델을 변경하지 않고도 더 큰 적응성과 향상된 성능을 보장하기 때문입니다. 간단히 말하면, 비동기 추론은 실행과 원격 예측의 겹침으로 로봇을 반응성 있게 유지합니다.

시각 및 언어 모델은 LAION, ImageNet, Common Crawl 와 같은 웹 규모의 데이터셋에서 번창하지만, 로봇 공학에는 비교할 수 있는 자원이 없습니다. "로봇 인터넷" (Internet of robots) 이 없습니다. 대신 데이터는 로봇 유형, 센서, 제어 방식, 형식 등으로 분산되어 있어 연결되지 않은 "데이터 섬" (data islands) 을 형성합니다. 이전 게시글에서 우리는 이러한 분해가 개방적이고 협력적인 노력으로 해결될 수 있음을 탐구했습니다. ImageNet 이 시각적 인식 분야에서 대규모 다양한 벤치마크를 제공하여 돌파구를 촉발한 것과 마찬가지로, 우리는 커뮤니티 주도 로봇 공학 데이터셋이 일반화 정책 (generalist robot policies) 에 동일한 기초 역할을 할 수 있다고 믿습니다.

SmolVLA 는 그 비전으로 가는 첫 단계입니다: 공개적으로 이용 가능한 커뮤니티 기여된 데이터셋의 큐레이티드 믹스에 사전 학습되어 있습니다. 이는 실제 세계의 변화를 반영하도록 설계되었습니다. 데이터셋 크기 최적화에 집중하는 것이 아니라, 우리는 다양성에 집중합니다: 전이와 일반화를 촉진하는 행동 범위, 카메라 뷰 포인트, 그리고 구현 (embodiments) 입니다.

SmolVLA 에서 사용된 모든 훈련 데이터는 LeRobot Community Datasets에서 나옵니다. Hugging Face Hub 의 lerobot 태그 아래 공유되는 로봇 공학 데이터셋입니다. 다양한 환경에서 수집되어 있습니다: 실험실부터 거실까지, 이러한 데이터셋은 실제 세계 로봇 데이터를 확장하기 위한 개방적이고 분산된 노력을 나타냅니다.

Figure 4. 커뮤니티 데이터셋의 한瞥 (A glimpse). Ville Kuosman 에게 시각화를 만드는 데 특별한 감사를 표합니다.

학술적 벤치마크와 달리, 커뮤니티 데이터셋은 다양한 조명, 최적화되지 않은 시연, 비전통적인 물체, 그리고 이질적인 제어 방식과 같은 불규칙하고 현실적인 상호작용을 자연스럽게 포착합니다. 이러한 다양성은 견고한 일반 목적의 표현 (robust, general-purpose representations) 을 학습하는 데 매우 유용할 것입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0