HuggingFace헤드라인2026. 05. 07. 13:18

비전 언어 모델 (더 나은, 더 빠른, 더 강력한)

요약

본 기사는 지난 1년간 비전 언어 모델(VLMs) 분야에서 발생한 주요 변화와 최신 트렌드를 포괄적으로 다루고 있습니다. VLM은 단순히 이미지와 텍스트를 결합하는 것을 넘어, 'Any-to-any'처럼 어떤 모달리티의 입력이든 다른 모달리티로 출력할 수 있는 방향으로 진화하고 있습니다. 특히 Qwen 2.5 Omni나 MiniCPM-o 같은 최신 모델들은 텍스트 생성(Thinker)과 음성 응답(Talker)을 분리하거나, 비전/음성/언어 등 여러 모달리티를 통합적으로 이해하고 콘텐츠를 생성하는 강력한 능력을 보여주며, 추론 및 에이전트 기능까지 갖추고 있습니다.

핵심 포인트

VLM은 단순 결합 단계를 넘어 'Any-to-any' 모델로 진화하여 다양한 모달리티 간의 상호 변환(이미지 $\leftrightarrow$ 텍스트 $\leftrightarrow$ 오디오)을 수행합니다.
최신 아키텍처는 'Thinker-Talker'와 같이 이해(Thinking)와 생성/출력(Talking) 과정을 분리하거나 최적화하는 경향을 보입니다 (예: Qwen 2.5 Omni).
모델들은 비전, 음성, 언어 등 여러 모달리티를 통합적으로 처리하며 콘텐츠를 생성할 수 있는 강력한 멀티모달 에이전트 기능을 갖추고 있습니다.
최근 연구 트렌드는 단순히 파라미터 크기를 키우는 것에서 벗어나, 고품질 합성 데이터와 효율적인 아키텍처 설계(MoE 등)를 통해 지능을 확장하는 방향으로 전환되고 있습니다.

비전 언어 모델 (더 나은, 더 빠른, 더 강력한)

비전 언어 모델 (VLMs) 은 현재 업계의 화제입니다. 이전 블로그 글 (2024 년 4 월) 에서 우리는 VLM 에 대해 많이 이야기했습니다. 주요 내용은 LLaVA 가 첫 번째 성공적이고 재현이 쉬운 오픈소스 비전 언어 모델이며, 이를 발견하고 평가하며 튜닝하는 방법에 대한 팁이었습니다.

그 이후로 많은 변화가 있었습니다. 모델은 더 작아졌고 더 강력해졌습니다. 새로운 아키텍처와 기능 (추론, 에이전시, 긴 영상 이해 등) 의 부상도 목격했습니다. 동시에 완전히 새로운 패러다임들, 예를 들어 멀티모달 RAG 와 멀티모달 에이전트들이 등장했습니다.

이 블로그 글에서는过去一年 동안 비전 언어 모델에서 일어난 모든 것을 되돌아보고 자세히 설명하겠습니다. 주요 변화, 새로 떠오르는 트렌드, 주목할 만한 발전을 발견하실 것입니다.

비전 언어 모델의 작동 원리에 대한 좋은 개요를 원하신다면 첫 번째 블로그 글을 읽는 것을 강력히 권장합니다.

새로운 모델 트렌드
전문화된 기능
멀티모달 에이전트
영상 언어 모델
비전 언어 모델을 위한 새로운 정렬 기법
새로운 벤치마크
부가: 우리의 모델 선택
유용한 리소스

이 섹션에서는 새로운 유형의 VLM 을 살펴보겠습니다. 일부는 완전히 새로운 것들이고, 다른 것은 이전 연구의 개선된 버전입니다.

"Any-to-any" 모델은 이름 그대로 어떤 모달리티를 입력받아 어떤 모달리티를 출력하는 모델입니다 (이미지, 텍스트, 오디오 등). 이는 모달리티를 정렬하여 수행하며, 하나의 모달리티에서 들어오는 입력을 다른 모달리티로 번역합니다 (예: "개"라는 단어는 개의 이미지와 연관되거나, 또는 "개"라는 단어를 발음하는 것과 연관됩니다).

이 모델들은 여러 인코더 (각 모달리티 하나씩) 를 가지며, 임베딩을 융합하여 공유 표현 공간을 만듭니다. 디코더 (여러 개 또는 단일 개) 는 공유 잠재 공간 (latent space) 을 입력으로 사용하여 원하는 모달리티로 디코딩합니다. Any-to-any 모델을 구축하기 위한 초기 시도는 Meta 의 Chameleon 입니다. 이 모델은 이미지와 텍스트를 입력받아 이미지와 텍스트를 출력할 수 있습니다. Meta 는 이 모델의 이미지 생성 기능을 공개하지 않았으므로, Alpha-VLLM 은 Chameleon 위에 Lumina-mGPT 를 구축하여 이미지 생성 기능을 추가했습니다.

가장 최신이고 가장 강력한 Any-to-any 모델인 Qwen 2.5 Omni (아래 그림) 는 Any-to-any 모델의 아키텍처를 이해하는 좋은 예입니다.

Qwen2.5-Omni 는 "Thinker-Talker"라는 새로운 아키텍처를 사용합니다. 여기서 "Thinker"는 텍스트 생성을 담당하고, "Talker" 는 스트리밍 방식으로 자연스러운 음성 응답을 생성합니다. MiniCPM-o 2.6 은 8B 파라미터 멀티모달 모델로, 비전, 음성, 언어 모달리티를 모두 이해하고 콘텐츠를 생성할 수 있습니다. DeepSeek AI 가 소개한 Janus-Pro-7B 는 모달리티 간 이해와 생성에 모두 뛰어난 통합 멀티모달 모델입니다. 이 모델은 이해 과정과 생성 과정을 분리하는 데coupled visual encoding architecture 를 특징으로 합니다.

우리는 향후 이러한 모델의 수가 증가할 것으로 예상합니다. 멀티모달 학습이 더 깊은 표현을 학습하는 유일한 방법이라는 것은 잘 알려진 직관입니다. 우리는 이 컬렉션에서 몇 가지 Any-to-any 모델과 데모를 정리했습니다.

이전 번역본과 이어지는 내용을 번역합니다.

Reasoning models are models that can solve complex problems. We saw them first with large language models, and now vision language models. Until 2025, there was only one open-source multimodal reasoning model, QVQ-72B-preview by Qwen. It was an experimental model that was developed by the Alibaba Qwen team and came with many disclaimers.

This year there's another player, Kimi-VL-A3B-Thinking by the Moonshot AI team. It consists of MoonViT (SigLIP-so-400M) as the image encoder and a Mixture-of-Experts (MoE) decoder with 16B total parameters and only 2.8B active parameters. The model is a long chain-of-thought fine-tuned and further aligned (reinforcement learning) version of the Kimi-VL base vision language model. You can try the model here.

The authors also released an instruction fine-tuned version called Kimi-VL-A3B-Instruct.

The model can take in long videos, PDFs, screenshots and more. It has agentic capabilities as well.

The community used to scale intelligence through the number of parameters, and then high-quality synthetic data. After a certain point, the benchmarks saturated and scaling models had diminishing returns. The community went to shrink larger models through various methods, like distillation. This makes sense because it reduces compute costs, simplifies deployment, and unlocks use cases like local execution, enhancing data privacy.

When we say small vision language models we often refer to models with less than 2B parameters that can be run on consumer GPUs. SmolVLM is a good example model family for smaller vision language models. Instead of shrinking larger models, the authors went all the way and tried to fit models into tiny number of parameters like 256M, 500M and 2.2B. SmolVLM2, for instance, attempted to solve video understanding in these sizes and found 500M to be a good trade-off. At Hugging Face, we have built an iPhone application, HuggingSnap, to demonstrate that these model sizes can achieve video understanding on consumer devices.

Another striking model is gemma3-4b-it by Google DeepMind. It's particularly exciting as it's one of the smallest multimodal models to have 128k token context window, and supports 140+ languages. The model comes with the Gemma 3 family of models, with its largest model ranking first on Chatbot Arena at the time. The largest model was then distilled to a 1B variant.

Lastly, although not the smallest, Qwen2.5-VL-3B-Instruct is worth noting. The model can do various tasks ranging from localization (object detection and pointing), to document understanding, to agentic tasks; with context length up to 32k tokens.

You can use small models through MLX and Llama.cpp integrations. For MLX, assuming you have it installed, you can get started with SmolVLM-500M-Instruct with this one liner:

python3 -m mlx_vlm.generate --model HuggingfaceTB/SmolVLM-500M-Instruct --max-tokens 400 --temp 0.0 --image https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/vlm_example.jpg --prompt "What is in this image?"

You can get started with using gemma-3-4b-it model in GGUF format with llama.cpp through CLI with this one-liner:

llama-mtmd-cli -hf ggml-org/gemma-3-4b-it-GGUF

You can also serve the same model as follows.

llama-server -hf ggml-org/gemma-3-4b-it-GGUF

우리는 가장 작은 비전 언어 모델 (VLM) 을 위한 초기 시도인 moondream2 와 Florence-2 에 찬사를 표합니다. 이번 블로그에서는 주로 새로운 모델을 다루고 있습니다 (대부분 2024 년 4 월 이후 출시된 모델).

혼합 전문가 (MoE) 모델은 밀집 (dense) 아키텍처의 대안으로, 입력 데이터 세그먼트를 처리할 때 가장 관련성 높은 하위 모델을 '전문가'라고 부르는 동적으로 선택하고 활성화하는 방식을 제공합니다. 이 선택적 활성화 (라우터에 의해 수행됨) 메커니즘은 더 적은 컴퓨팅 리소스를 활용하면서도 모델 성능과 운영 효율성을 현저히 향상시킬 잠재력을 입증했습니다.

MoE 는 네트워크의 작은 부분을 선택적으로 활성화하기 때문에 추론 (inference) 속도가 밀집 파라미터를 가진 유사한 모델보다 빠릅니다. 또한 훈련 중에도 빠르게 수렴합니다. 모든 좋은 것은 비용이 따르며, MoE 는 전체 모델이 GPU 에 존재하기 때문에 더 많은 메모리 비용을 필요로 합니다.

널리 채택된 Transformer 아키텍처에서, MoE 레이어는 각 Transformer 블록 내의 표준 Feed-Forward Network (FFN) 레이어를 대체하여 가장 일반적으로 통합됩니다. 밀집 네트워크는 전체 모델을 사용하여 추론을 수행하는 반면, 크기가 유사한 MoE 네트워크는 일부 전문가를 선택적으로 활성화합니다. 이는 더 나은 컴퓨팅 활용과 빠른 추론을 돕습니다.

혼합 전문가 (MoE) 디코더를 가진 비전 언어 모델은 성능이 향상된 것으로 보입니다. 예를 들어, 현재 Kimi-VL 은 가장 발전한 오픈 소스 추론 모델로, 혼합 전문가 디코더를 갖추고 있습니다. MoE-LLaVA 는 효율성과 환각 (hallucination) 감소를, DeepSeek-VL2 는 광범위한 멀티모달 기능을 통해 MoE 를 보여주고 있습니다. 최신 버전의 Llama (Llama 4) 는 비전 기능을 갖춘 MoE 입니다. MoE 를 디코더로 하는 것은 유망한 연구 분야이며, 이러한 모델들의 증가를 예상합니다.

MoE 에 대한 좋은 이해를 얻으려면 이 멋진 기사를 읽는 것을 권장합니다.

VLM 은 로봇공학 (robotics) 분야에서도 그 흔적을 남기고 있습니다. 그곳에서는 비전-언어-행동 모델 (Vision-language-action models, VLA) 로 알려져 있습니다. 하지만 속지 마세요, 그것은 주로 VLM 에 작은 수염과 모자를 쓴 것입니다. VLAs 는 이미지와 텍스트 지시를 받아 로봇이 직접 수행해야 할 행동을 나타내는 텍스트를 반환합니다. VLAs 는 행동 및 상태 토큰을 추가하여 물리적 환경을 상호작용하고 제어함으로써 비전 언어 모델을 확장합니다. 이 추가 토큰은 시스템의 내부 상태 (환경을 어떻게 인식하는지), 행동 (명령에 기반하여 무엇을 하는지), 시간 관련 정보 (예: 작업의 단계 순서) 를 나타냅니다. 이 토큰들은 행동이나 정책을 생성하기 위해 비전 언어 입력에 붙여집니다.

VLAs 는 일반적으로 기본 VLM 을 위에서 세밀하게 조정 (fine-tune) 합니다. 일부 사람들은 이 정의를 더 확장하여 VLAs 를 시각적으로 실제 또는 디지털 세계와 상호작용하는 모든 모델로 정의합니다. 이 정의에 따르면, VLAs 는 UI 탐색을 수행하거나 에이전트 워크플로우에서 사용될 수 있습니다. 그러나 많은 사람들은 이러한 응용 프로그램이 VLM 도메인에 속한다고 믿습니다.

VLAs 의 훌륭한 예는 Physical Intelligence 의 첫 번째 로봇학 기반 모델인 π0 과 π0-FAST 입니다. 이 모델들은 Hugging Face 의 LeRobot 라이브러리로 포팅되었으며, 7 개의 로봇 플랫폼과 68 개의 고유한 작업에 걸쳐 훈련되었습니다. 이들은 세탁물 접기, 테이블 세우기, 식료품 가방 정리, 상자 조립, 물체 검색 등 복잡한 실제 세계 활동에서 강력한 제로샷 (zero-shot) 과 세밀 조정 (fine-tuned) 성능을 보여줍니다.

GR00T N1 는 NVIDIA 의 일반적 인간형 로봇을 위한 오픈 소스 VLA(비전-언어 행동) 기반 모델입니다. 이 모델은 이미지를 이해하고 언어를 처리하여, 스마트 추론과 실시간 동작 제어를 결합한 시스템을 통해 팔을 움직이거나 지시를 따르는 등의 행동을 수행합니다. GR00T N1 는 로봇 시연 공유 및 학습을 단순화하기 위해 개발된 오픈 표준인 LeRobot 데이터셋 형식을 기반으로 합니다.

[논문에서 인용]

이제 최신 VLM(비전-언어 모델) 모델 혁신을 살펴보았으니, 더 확립된 기능들이 어떻게 진화해 왔는지 살펴봅시다.

앞서 본 바와 같이, VLMs는 전통적인 컴퓨터 비전 작업에 대한 일반화를 가능하게 합니다. 이제 모델들은 이미지를 다양한 프롬프트 (예: 개방형 텍스트) 와 함께 입력받아, 위치 토큰을 포함한 구조화된 텍스트 (탐지, 분할 등) 를 출력할 수 있습니다.

지난 해, PaliGemma 는 이러한 작업을 해결하기 위해 첫 번째 모델을 시도했습니다. 이 모델은 이미지와 텍스트를 입력받으며, 텍스트는 관심 대상의 설명과 작업 접두사를 포함합니다. 텍스트 프롬프트는 "striped cat 분할" 또는 "지붕에 있는 새 탐지"와 같은 형태입니다.

탐지 (detection) 의 경우, 모델은 토큰으로 경계 박스 좌표를 출력합니다. 분할 (segmentation) 의 경우, 모델은 탐지 토큰과 분할 토큰을 출력합니다. 이 분할 토큰들은 모든 픽셀 좌표가 아닌, 변분 자동인코더 (VAE) 에 의해 유효한 분할 마스크로 해석되는 코드북 인덱스입니다.

PaliGemma 이후 많은 모델이 위치 작업 (localization tasks) 을 수행하도록 소개되었습니다. 지난 해 말, PaliGemma 2 라는 업그레이드 버전이 등장하여 동일한 기능을 제공하며 성능을 개선했습니다. 나중에 등장한 또 다른 모델은 Allen AI 의 Molmo 로, 점으로 인스턴스를 지시하고 대상 인스턴스 개수를 세는 기능이 있습니다.

Qwen2.5-VL 또한 객체를 탐지하고, 지시하며, 세울 수 있으며, 이는 UI 요소도 객체로 포함됩니다!

실제 환경에서 작동하는 비전 언어 모델은 규정 준수 (compliance) 를 위해 해킹 시도와 유해한 출력 방지를 위해 입력과 출력을 필터링해야 합니다. 유해한 콘텐츠는 폭력성 있는 입력부터 성적으로 명시적인 콘텐츠까지 다양합니다. multimodal safety models(멀티모달 안전 모델) 이 바로 이를 위해 사용됩니다: VLMs 에 앞서서 그리고 이후에 입력과 출력을 필터링하는 데 사용되며, LLM 안전 모델과 유사하지만 추가적인 이미지 입력을 포함합니다.

2025 년 초, Google 은 첫 번째 오픈 소스 멀티모달 안전 모델인 ShieldGemma 2 를 소개했습니다. 이 모델은 텍스트 전용 안전 모델인 ShieldGemma 를 기반으로 구축되었습니다. 이 모델은 이미지와 콘텐츠 정책을 입력받아 해당 정책 하에서 이미지가 안전한지 여부를 반환합니다. Policy 는 이미지가 부적절하다고 판단되는 기준을 의미합니다. ShieldGemma 2 는 또한 이미지 생성 모델의 출력도 필터링하는 데 사용할 수 있습니다.

Meta 의 Llama Guard 4 는 밀집형 멀티모달 및 다국어 안전 모델입니다. 이는 안전 미세 조정 (fine tuning) 을 통해 Llama 4 Scout(멀티모odal mixture-of-experts) 에서 밀집적으로 잘라낸 것입니다.

이 모델은 텍스트 전용 및 멀티모달 추론에 사용될 수 있습니다. 또한, 이 모델은 사용자에게 전송하기 전에 VLM 출력과 완전한 대화를 필터링할 수도 있습니다.

이제 RAG(검색 증강 생성) 가 멀티모달 공간에서 어떻게 진화했는지 살펴보겠습니다. 복잡한 문서 (보통 PDF 형식) 를 위한 RAG 는 세 단계로 처리됩니다:

문서를 텍스트로 완전히 파싱
평문 텍스트와 쿼리를 리트리버 및 reranker 에 전달하여 가장 관련성 높은 문서를 얻기
관련 컨텍스트와 쿼리를 LLM 에 전달

AI 자동 생성 콘텐츠

원문 바로가기

비전 언어 모델 (더 나은, 더 빠른, 더 강력한)

요약

핵심 포인트

비전 언어 모델 (더 나은, 더 빠른, 더 강력한)

댓글