본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 10:39

가장 좋은 로컬 VLM은 무엇인가? 벤치마크 결과 2026년 6월

요약

2026년 6월 기준 최신 로컬 VLM(Vision Language Model)들의 성능을 벤치마크한 결과입니다. Qwen3-VL 4B가 속도 면에서 우수했으며, 다양한 모델의 아키텍처와 실행 환경을 비교 분석했습니다.

핵심 포인트

  • Qwen3-VL 4B 모델이 초당 61토큰으로 가장 빠른 추론 속도를 기록함
  • Gemma 4 시리즈(12B, 26B, E4B)를 포함한 다양한 MoE 및 Dense 모델 비교
  • Apple M2 Max 환경에서 Ollama를 활용한 로컬 실행 성능 측정
  • Phi-4 및 DeepSeek-VL2 등 일부 모델의 로컬 실행 제약 사항 확인

이 모든 것은 제가 코딩용으로 사용하는 LLM(Large Language Model)에 시각 지원(vision support) 기능이 없기 때문에 시작되었습니다. 해당 모델은 이미지 분석을 위해 클라우드 기반의 MCP(Model Context Protocol) 서버에 의존하고 있는데, 잘 작동하긴 하지만 매달 정해진 한도에 계속 부딪히고 있습니다. 그래서 대체제로 저만의 로컬 MCP를 직접 작성하기 시작했고, 그 첫 번째 단계는 어떤 VLM(Vision Language Model)을 사용할지 찾는 것이었습니다.

저는 2026년 6월 기준으로 현재 가장 뛰어나고 최신이라고 생각되는 로컬 VLM 모델들을 선정했습니다. 만약 제가 틀렸다면 알려주세요.

Gemma 4 12B
Gemma 4 26B-A4B (MoE)
Gemma 4 E4B (MoE)
GLM-4.6V-Flash 9B
InternVL3.5 8B
Qwen3-VL 4B
Qwen3-VL 8B

다음 3가지 모델도 포함하고 싶었지만, 제 Mac에서 실행하는 데 실패했습니다:

Phi-4-reasoning-vision-15B (llama.cpp가 아직 phi4-siglip 시각 아키텍처를 구현하지 않음)
DeepSeek-VL2 (작동하는 멀티모달 GGUF 포트가 없음, vLLM이 필요함)
InternVL3:8b-Q4_K_M (멀티모달 프로젝터(multimodal projector)가 선언되지 않은 손상된 Modelfile)

저의 초기 가정은 Gemma 4 12B가 가장 좋은 모델일 것이라는 점이었습니다.
저는 이미지 유형, 주제, 파일 형식이 다양한 20개의 테스트 스위트(test suite)를 준비했고, 모델을 자동으로 로드하고, 쿼리(query)를 실행하며, 결과를 수집하는 스크립트를 작성했습니다. 작동하는 모델들의 순위는 다음과 같습니다.

성능 (Performance)
초당 토큰 수(tokens per second)의 중앙값(median)을 기준으로 내림차순 정렬 (빠른 순서).

모델아키텍처 (Arch)디스크 크기 (Disk size)초당 토큰 중앙값 (Median tok/s)이미지당 소요 시간 중앙값 (Median time/image)출력 토큰 중앙값 (Median output tokens)
Qwen3-VL 4BDense, 4B3.3 GB6132 s1732
Qwen3-VL 8BDense, 8B6.1 GB4346 s1429
InternVL3.5 8BDense, 8B5.7 GB4115 s394
Gemma 4 E4BMoE, ~4B active9.6 GB4135 s1380
Gemma 4 26B-A4BMoE, 4B active / 26B total17 GB4043 s1673
GLM-4.6V-Flash 9BDense, 9B8.0 GB3744 s1357
Gemma 4 12BDense, 12B (encoder-free)7.6 GB2169 s1508

테스트 조건:

사양(specs): Apple M2 Max, 96GB RAM
런타임(runtime): Ollama 0.30.8 (OLLAMA_FLASH_ATTENTION=1, OLLAMA_KV_CACHE_TYPE=q8_0 설정)
모델: Q4 GGUF (기본 태그), 사용 가능한 경우 공식 Ollama 라이브러리에서 가져왔으며, 그렇지 않은 경우 커뮤니티 포트 사용
프롬프트(prompt): "이 이미지를 자세히 설명해줘."

포함할 내용: 보이는 텍스트(verbatim), 사물, 사람, 레이아웃, 색상 및 눈에 띄는 특징. 답변은 Markdown 제목을 사용하여 구성하세요."
temperature=0.1

품질 순위링
140개의 출력물을 주관적으로 읽고 평가하여 작성했습니다. 주요 발견 사항은 다음과 같습니다:

Qwen3-VL 8B는 배너에 있는 중국어 문자 '少林寺'와 텍스트 'SHAOLIN TEMPEL ÖSTERREICH'를 모두 정확하게 읽었고, 오른쪽의 휘장을 구체적으로 "월계수 잎으로 둘러싸인 두 손이 하트를 잡고 있는 검은색 문양"이라고 설명했습니다. 다른 모든 모델들은 "상징적인 이미지"라고 말했거나 세부 사항을 잘못 언급했습니다.
Gemma 4 26B-A4B는 아키텍처 다이어그램을 설명할 때 프롬프트 없이 깨끗한 Markdown 테이블을 생성한 유일한 모델이었으며, 6가지 구성 요소와 두 가지 프로토콜 모두를 정확하게 식별했습니다.
GLM-4.6V-Flash 9B가 만화 패널 개수에서 가장 근접했습니다(실제: 11개, 언급: 12개). 다른 모든 모델들은 8개 또는 9개라고 말했습니다.
Gemma 4 E4B는 두 가지 기본 사실 테스트에서 오류를 범했습니다. 사진 속 인원 5명 중 6명을 주장했으며(자신감 있게 "남성 4명, 여성 2명"으로 분류), 음악 앨범 커버의 텍스트가 한 번만 나타나는데도 두 번 나타난다고 주장했습니다.
InternVL3.5 8B는 QR 코드를 "흑백 미로 같은 패턴"이라고 생각했으며, 사진 속 인원 5명 중 6명을 언급했습니다.

순위 모델 품질 명확한 강점 약점 최적의 사용처

1 Qwen3-VL 8B 우수한 OCR 및 세부 사항. 혼합 스크립트 텍스트(중국어 + 라틴어)를 안정적으로 읽음. 배너 휘장에서 "하트를 잡은 손 + 월계수" 세부 사항을 포착하여 다른 6개 모델이 놓치거나 모호하게 언급함. 인원 수 5명에 대해 정확함. 장황함(1.4–2.2k 토큰) — 토큰 비용에 민감한 파이프라인에는 너무 많을 수 있음 세부 정보 추출, OCR 및 혼합 언어 콘텐츠. 코딩 어시스턴트 MCP의 기본값.
2 Gemma 4 26B-A4B 우수한 밀집 장면 및 구조화된 출력. 복잡한 음악 카탈로그 스크린샷에서 최고 성능(구조화된 세부 정보 3332 토큰). 요청받지 않았는데도 깨끗한 Markdown 테이블을 생성함. 인원 수에 대해 정확함.

17 GB 디스크 용량; 원활한 실행을 위해 32 GB 이상의 RAM 필요. 복잡한 스크린샷 — 대시보드, IDE 스크린샷, 밀집된 UI. 모든 정보를 추출해야 할 때 RAM을 투자할 가치가 있음.

3 Qwen3-VL 4B 매우 좋음. 속도/품질 비율이 매우 뛰어남. 8B와 동일한 제품군이며, 품질 차이는 가장 어려운 이미지에서만 느껴질 정도로 근접함. 디스크 용량 3 GB, 61 tok/s. 8B가 확신했던 배너 엠블럼(

태스크에 따른 최적의 모델

카테고리승자이유
OCR / 혼합 스크립트 텍스트Qwen3-VL 8B동일 이미지 내에서 중국어와 라틴 문자를 모두 읽음; 다른 모델은 두 문자를 모두 깔끔하게 처리하지 못함.
밀집된 / 복잡한 스크린샷Gemma 4 26B-A4BOneRPM 카탈로그에서 타 모델이 약 2,000개 토큰을 처리할 때 3,332개 토큰을 처리함.
속도Qwen3-VL 4B61 tok/s, 두 번째로 빠른 모델보다 약 2배 빠름.
다중 패널 레이아웃 분석GLM-4.6V-Flash만화 페이지의 패널 수를 실제 11개에 가장 근접하게 파악(12개로 파악); 행 단위 구조 분석이 가장 뛰어남.
코드 추출무승부 (7개 모델 모두)모든 모델이 Python 코드 스니펫을 올바른 들여쓰기와 함께 그대로 추출함. 가장 빠른 모델을 사용하십시오.
다이어그램 / 아키텍처무승부 (7개 중 5개)Qwen3-VL 8B/4B, Gemma 4 12B/26B, GLM, InternVL3.5 모두 6개 구성 요소를 모두 식별함. Gemma 4 E4B는 확답을 피했으며, InternVL3.5는 간결하게 답변함.

추천 사항:
Qwen3-VL 8B는 모든 용도로 사용하기에 가장 좋은 단일 모델입니다.

하드웨어 사양별

| 사양 | 주요 선택지 | 비고 |
| :--- | :--- | : |
| 8–16 GB RAM (M1 / M2 기본형, Intel Mac) | Qwen3-VL 4B | 디스크 용량 3 GB, 61 tok/s, 품질은 8B에 근접함. 라인업 중 기본형 Mac에서 원활하게 실행되는 유일한 모델. |
| 16–32 GB RAM (M1/M2 Pro, M2 Air 24 GB) | Qwen3-VL 8B | 기본 선택지. 함께 실행되는 코딩 LLM과 궁합이 좋음. |
| 32 GB+ RAM (M Max, M Pro 중급형) | Qwen3-VL 8B + Gemma 4 26B-A4B | 일상적인 조회를 위해서는 8B 사용; 밀집된 스크린샷에서 모든 세부 정보를 추출해야 할 때는 26B-A4B 사용. MoE 모델의 디스크 용량은 17 GB임. |

제출자: /u/ex-arman68  

[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0