HuggingFace헤드라인2026. 05. 07. 19:58

SmolVLM2: 모든 기기에서 비디오 이해를 실현하다

요약

SmolVLM2는 거대한 컴퓨팅 자원을 요구하는 기존의 비디오 이해 모델 패러다임을 전환하여, 스마트폰부터 서버까지 모든 기기에서 실행 가능한 효율적인 경량화 비디오 언어 모델입니다. 이 프로젝트는 256M, 500M, 2.2B 세 가지 크기의 모델을 제공하며, 특히 메모리 효율성 대비 뛰어난 성능으로 Video-MME와 같은 과학적 벤치마크에서 선두를 달리고 있습니다. 개발자들은 MLX 및 Python API를 통해 즉시 접근할 수 있으며, 이를 활용하여 로컬 기기 기반의 비디오 분석 앱(예: 아이폰 앱), 지능형 미디어 플레이어 통합, 장시간 영상 요약 도구 등 다양한 실용적인 애플리케이션을 구축할 수 있습니다.

핵심 포인트

SmolVLM2는 모든 디바이스에서 실행 가능한 경량화 비디오 이해 모델로, 접근성을 혁신합니다.
세 가지 크기(256M, 500M, 2.2B)의 모델을 제공하며, 특히 작은 모델에서도 높은 메모리 효율성과 성능을 입증했습니다.
Video-MME와 같은 포괄적인 과학적 벤치마크에서 기존 대형 모델에 필적하거나 능가하는 성능을 보여줍니다.
MLX 및 Python API를 통해 개발자들이 쉽게 접근할 수 있으며, 로컬 기기 기반의 다양한 실용 애플리케이션 구축이 가능합니다.

SmolVLM2: 모든 기기에서 비디오 이해를 실현하다

SmolVLM2 는 우리가 비디오 이해에 대해 어떻게 생각하는지 근본적으로 바꾸는 전환을 의미합니다. 거대한 컴퓨팅 자원이 필요한 대규모 모델에서, 어디서나 실행할 수 있는 효율적인 모델로 이동하는 것입니다. 우리의 목표는 간단합니다: 모든 기기 (스마트폰부터 서버까지) 와 사용 사례에서 비디오 이해를 접근 가능하게 만드는 것입니다.

우리는 세 가지 크기 (2.2B, 500M, 256M) 의 모델을 출시하며, MLX 준비 (Python and Swift API) 를 첫 날부터 제공합니다. 모든 모델과 데모는 이 컬렉션에서 사용할 수 있습니다.

SmolVLM2 를 바로 시도하고 싶으신가요? 간단한 직관적인 인터페이스를 통해 SmolVLM2 2.2B 의 시각 및 비디오 이해 능력을 테스트할 수 있는 상호작용 채팅 인터페이스를 확인해 보세요.

SmolVLM2: 모든 기기에서 비디오 이해를 실현하다

우리는 256M, 500M 과 2.2B 파라미터를 가진 세 가지 새로운 모델을 소개합니다. 2.2B 모델은 시각 및 비디오 작업의 기본 선택지이며, 500M 과 256M 모델은 ever released 에서 가장 작은 비디오 언어 모델입니다.

그들이 작지만 메모리 소비량당 성능은 기존 모든 모델을 능가합니다. Video-MME (비디오 분야의 과학적 벤치마크) 를 살펴보면, SmolVLM2 는 2B 범위의 프론티어 모델 가족에 합류하며 더 작은 공간에서는 선두를领跑합니다.

Video-MME 는 다양한 비디오 유형, 변화하는 지속 시간 (11 초에서 1 시간까지), 여러 데이터 모달리티 (자막 및 오디오 포함) 와 총 900 개의 비디오에 걸친 254 시간의 고품질 전문가 주석으로 인해 포괄적인 벤치마크로 두드러집니다. 더 알아보기.

이전 SmolVLM 가족과 비교하면, 새로운 2.2B 모델은 이미지와 함께 수학 문제를 해결하고 사진에서 텍스트를 읽으며 복잡한 다이어그램을 이해하고 과학적 시각 질문을 해결하는 데 더 잘 되었습니다. 이는 다양한 벤치마크에서의 모델 성능에 나타납니다:

비디오 작업이 중요한 경우, 2.2B 는 좋은 투자입니다. 평가한 여러 과학적 벤치마크에서 우리는 Video-MME 에서의 성능을 강조하며, 기존 모든 2B 모델을 능가합니다.

Apollo: An Exploration of Video Understanding in Large Multimodal Models 에서 발표된 데이터 혼합 학습 덕분에 비디오/이미지 성능에 좋은 균형을 달성할 수 있었습니다.

그것은 메모리 효율성이 매우 뛰어나서 무료 Google Colab 에서도 실행할 수 있습니다.

Python Code

# Install transformers from `main` or from this stable branch:
!pip install git+https://github.com/huggingface/transformers@v4.49.0-SmolVLM-2
from transformers import AutoProcessor, AutoModelForImageTextToText
...

오늘날까지 사람들은 이러한 작은 비디오 모델을 출시하는 용기가 없었습니다.

우리의 새로운 SmolVLM2-500M-Video-Instruct 모델은 SmolVLM 2.2B 의 비디오 능력과 매우 가깝지만, 크기는 훨씬 작습니다: 우리는 파라미터의 1/4 미만으로 동일한 비디오 이해 능력을 얻습니다 🤯.

그리고 우리의 작은 실험인 SmolVLM2-256M-Video-Instruct이 있습니다. "만약" 프로젝트라고 생각해 보세요. 만약 우리가 더 작은 모델의 한계를 더욱 밀어붙일 수 있다면 어떻게 될까요? IBM 이 몇 주 전에 base SmolVLM-256M-Instruct 에서 달성한 것을 영감을 받아, 비디오 이해에서 얼마나 멀리 갈 수 있는지 확인하고 싶었습니다. 이는 실험적 출시이지만, 창의적인 응용 프로그램과 전문 미세 조정 프로젝트를 영감으로 기대합니다.

우리의 작은 비디오 모델에 대한 비전을 입증하기 위해, 우리는 이러한 모델의 다용도를 보여주는 세 가지 실용적인 애플리케이션을 구축했습니다.

아이폰 앱으로 완전히 로컬에서 실행되는 SmolVLM2 를 만들었습니다. 5 억 모델 (500M model) 을 사용하여 사용자는 기기 내에서 직접 비디오 콘텐츠를 분석하고 이해할 수 있습니다 - 클라우드가 필요 없습니다. 로컬에서 AI 모델을 실행하는 아이폰 비디오 처리 앱을 구축하시겠습니까? 곧 출시합니다 - 테스트 및 개발을 위해 이 양식을 작성해 주세요!

VLC 미디어 플레이어와 협력하여 SmolVLM2 를 통합하여 지능형 비디오 섹션 설명과 탐색을 제공합니다. 이 통합은 사용자가 자연어 설명에 기반하여 관련 섹션으로 바로 이동할 수 있도록 비디오 콘텐츠를 의미론적으로 검색할 수 있게 합니다. 아직 진행 중인 작업이지만, 현재 플레이리스트 빌더 프로토타입을 통해 실험해 볼 수 있습니다.

Hugging Face Space 로 제공되며, 이 애플리케이션은 장시간 영상 (1 시간 이상) 을 자동으로 가장 중요한 순간들을 추출합니다. 축구 경기 및 기타 긴 이벤트를 광범위하게 테스트하여 콘텐츠 요약 도구로 강력한 기능을 제공합니다. 데모 스페이스에서 직접 사용해 보세요.

transformers 와 MLX 를 사용하여 즉시 사용할 수 있도록 SmolVLM2 를 제공했습니다. 이 섹션에서는 비디오 및 다중 이미지에 대한 다른 추론 대안과 튜토리얼을 찾을 수 있습니다.

SmolVLM2 모델을 실행하는 가장 쉬운 방법은 대화형 API 를 사용하는 것입니다 - 채팅 템플릿을 적용하면 모든 입력을 자동으로 준비합니다.

모델은 다음과 같이 로드할 수 있습니다.

# transformers 를 `main` 또는 이 안정 분지에서 설치하세요:
!pip install git+https://github.com/huggingface/transformers@v4.49.0-SmolVLM-2
from transformers import AutoProcessor, AutoModelForImageTextToText
...

비디오를 채팅 템플릿을 통해 전달하려면 `{

현재 진행 중인 PR 가 최종 확정되고 병합되기 전까지는 프로젝트가 이 포크 (fork) 에서 컴파일되어야 하며, 이후 Mac 에서 llm-tool CLI 를 다음과 같이 사용할 수 있습니다.

이미지 추론을 위한 경우:

./mlx-run --debug llm-tool \
--model mlx-community/SmolVLM2-500M-Video-Instruct-mlx \
--prompt "Can you describe this image?" \
...

비디오 분석도 지원하며, 시스템 프롬프트 (system prompt) 를 제공하기도 합니다. 우리는 비디오 이해에 특히 도움이 되는 시스템 프롬프트를 발견했습니다. 이는 모델을 우리가 관심 있는 수준의 세부 사항까지 유도하기 때문입니다. 다음은 비디오 추론 예시입니다:

./mlx-run --debug llm-tool \
--model mlx-community/SmolVLM2-500M-Video-Instruct-mlx \
--system "Focus only on describing the key dramatic action or notable event occurring in this video segment. Skip general context or scene-setting details unless they are crucial to understanding the main action." \
...

MLX 와 Swift 를 사용하여 SmolVLM2 를 앱에 통합하신다면, 알려주시길 바랍니다! 아래 댓글 섹션에 편하게 메시지 남겨주세요!

transformers 🤗 를 사용하여 비디오를 기반으로 SmolVLM2 를 파인튜닝 (fine-tune) 할 수 있습니다. 우리는 500M 변형을 VideoFeedback 데이터셋의 비디오 캡션 쌍 (video-caption pairs) 을 사용하여 Colab 에서 파인튜닝했습니다. 500M 변형은 작기 때문에 QLoRA 나 LoRA 대신 풀 파인튜닝 (full fine-tuning) 을 적용하는 것이 더 좋습니다. 반면에 cB 변형에는 QLoRA 를 적용할 수 있습니다. 파인튜닝 노트북은 여기에서 찾을 수 있습니다.

다음과 같이 우리를 인용해 주세요:

@article{marafioti2025smolvlm,
title={SmolVLM: Redefining small and efficient multimodal models},
author={Andrés Marafioti and Orr Zohar and Miquel Farré and Merve Noyan and Elie Bakouch and Pedro Cuenca and Cyril Zakka and Loubna Ben Allal and Anton Lozhkov and Nouamane Tazi and Vaibhav Srivastav and Joshua Lochner and Hugo Larcher and Mathieu Morlon and Lewis Tunstall and Leandro von Werra and Thomas Wolf},
...

우리는 모델이 transformers 에 기여한 Raushan Turganbay, Arthur Zucker 와 Pablo Montalvo Leroux 를 감사의 인사를 드립니다.

SmolVLM2 로 여러분이 구축할 모든 것을 기대합니다! SmolVLM 모델 가족에 대해 더 알고 싶다면, 다음을 읽어보세요:

AI 자동 생성 콘텐츠

원문 바로가기