가장 좋은 로컬 VLM은 무엇인가? 벤치마크 결과 2026년 6월

이 모든 것은 제가 코딩용으로 사용하는 LLM(Large Language Model)에 시각 지원(vision support) 기능이 없기 때문에 시작되었습니다. 해당 모델은 이미지 분석을 위해 클라우드 기반의 MCP(Model Context Protocol) 서버에 의존하고 있는데, 잘 작동하긴 하지만 매달 정해진 한도에 계속 부딪히고 있습니다. 그래서 대체제로 저만의 로컬 MCP를 직접 작성하기 시작했고, 그 첫 번째 단계는 어떤 VLM(Vision Language Model)을 사용할지 찾는 것이었습니다.

저는 2026년 6월 기준으로 현재 가장 뛰어나고 최신이라고 생각되는 로컬 VLM 모델들을 선정했습니다. 만약 제가 틀렸다면 알려주세요.

Gemma 4 12B
Gemma 4 26B-A4B (MoE)
Gemma 4 E4B (MoE)
GLM-4.6V-Flash 9B
InternVL3.5 8B
Qwen3-VL 4B
Qwen3-VL 8B

다음 3가지 모델도 포함하고 싶었지만, 제 Mac에서 실행하는 데 실패했습니다:

Phi-4-reasoning-vision-15B (llama.cpp가 아직 phi4-siglip 시각 아키텍처를 구현하지 않음)
DeepSeek-VL2 (작동하는 멀티모달 GGUF 포트가 없음, vLLM이 필요함)
InternVL3:8b-Q4_K_M (멀티모달 프로젝터(multimodal projector)가 선언되지 않은 손상된 Modelfile)

저의 초기 가정은 Gemma 4 12B가 가장 좋은 모델일 것이라는 점이었습니다.
저는 이미지 유형, 주제, 파일 형식이 다양한 20개의 테스트 스위트(test suite)를 준비했고, 모델을 자동으로 로드하고, 쿼리(query)를 실행하며, 결과를 수집하는 스크립트를 작성했습니다. 작동하는 모델들의 순위는 다음과 같습니다.

성능 (Performance)
초당 토큰 수(tokens per second)의 중앙값(median)을 기준으로 내림차순 정렬 (빠른 순서).

모델	아키텍처 (Arch)	디스크 크기 (Disk size)	초당 토큰 중앙값 (Median tok/s)	이미지당 소요 시간 중앙값 (Median time/image)	출력 토큰 중앙값 (Median output tokens)
Qwen3-VL 4B	Dense, 4B	3.3 GB	61	32 s	1732
Qwen3-VL 8B	Dense, 8B	6.1 GB	43	46 s	1429
InternVL3.5 8B	Dense, 8B	5.7 GB	41	15 s	394
Gemma 4 E4B	MoE, ~4B active	9.6 GB	41	35 s	1380
Gemma 4 26B-A4B	MoE, 4B active / 26B total	17 GB	40	43 s	1673
GLM-4.6V-Flash 9B	Dense, 9B	8.0 GB	37	44 s	1357
Gemma 4 12B	Dense, 12B (encoder-free)	7.6 GB	21	69 s	1508

테스트 조건:

사양(specs): Apple M2 Max, 96GB RAM
런타임(runtime): Ollama 0.30.8 (OLLAMA_FLASH_ATTENTION=1, OLLAMA_KV_CACHE_TYPE=q8_0 설정)
모델: Q4 GGUF (기본 태그), 사용 가능한 경우 공식 Ollama 라이브러리에서 가져왔으며, 그렇지 않은 경우 커뮤니티 포트 사용
프롬프트(prompt): "이 이미지를 자세히 설명해줘."

포함할 내용: 보이는 텍스트(verbatim), 사물, 사람, 레이아웃, 색상 및 눈에 띄는 특징. 답변은 Markdown 제목을 사용하여 구성하세요."
temperature=0.1

품질 순위링
140개의 출력물을 주관적으로 읽고 평가하여 작성했습니다. 주요 발견 사항은 다음과 같습니다:

Qwen3-VL 8B는 배너에 있는 중국어 문자 '少林寺'와 텍스트 'SHAOLIN TEMPEL ÖSTERREICH'를 모두 정확하게 읽었고, 오른쪽의 휘장을 구체적으로 "월계수 잎으로 둘러싸인 두 손이 하트를 잡고 있는 검은색 문양"이라고 설명했습니다. 다른 모든 모델들은 "상징적인 이미지"라고 말했거나 세부 사항을 잘못 언급했습니다.
Gemma 4 26B-A4B는 아키텍처 다이어그램을 설명할 때 프롬프트 없이 깨끗한 Markdown 테이블을 생성한 유일한 모델이었으며, 6가지 구성 요소와 두 가지 프로토콜 모두를 정확하게 식별했습니다.
GLM-4.6V-Flash 9B가 만화 패널 개수에서 가장 근접했습니다(실제: 11개, 언급: 12개). 다른 모든 모델들은 8개 또는 9개라고 말했습니다.
Gemma 4 E4B는 두 가지 기본 사실 테스트에서 오류를 범했습니다. 사진 속 인원 5명 중 6명을 주장했으며(자신감 있게 "남성 4명, 여성 2명"으로 분류), 음악 앨범 커버의 텍스트가 한 번만 나타나는데도 두 번 나타난다고 주장했습니다.
InternVL3.5 8B는 QR 코드를 "흑백 미로 같은 패턴"이라고 생각했으며, 사진 속 인원 5명 중 6명을 언급했습니다.

순위 모델 품질 명확한 강점 약점 최적의 사용처

1 Qwen3-VL 8B 우수한 OCR 및 세부 사항. 혼합 스크립트 텍스트(중국어 + 라틴어)를 안정적으로 읽음. 배너 휘장에서 "하트를 잡은 손 + 월계수" 세부 사항을 포착하여 다른 6개 모델이 놓치거나 모호하게 언급함. 인원 수 5명에 대해 정확함. 장황함(1.4–2.2k 토큰) — 토큰 비용에 민감한 파이프라인에는 너무 많을 수 있음 세부 정보 추출, OCR 및 혼합 언어 콘텐츠. 코딩 어시스턴트 MCP의 기본값.
2 Gemma 4 26B-A4B 우수한 밀집 장면 및 구조화된 출력. 복잡한 음악 카탈로그 스크린샷에서 최고 성능(구조화된 세부 정보 3332 토큰). 요청받지 않았는데도 깨끗한 Markdown 테이블을 생성함. 인원 수에 대해 정확함.

17 GB 디스크 용량; 원활한 실행을 위해 32 GB 이상의 RAM 필요. 복잡한 스크린샷 — 대시보드, IDE 스크린샷, 밀집된 UI. 모든 정보를 추출해야 할 때 RAM을 투자할 가치가 있음.

3 Qwen3-VL 4B 매우 좋음. 속도/품질 비율이 매우 뛰어남. 8B와 동일한 제품군이며, 품질 차이는 가장 어려운 이미지에서만 느껴질 정도로 근접함. 디스크 용량 3 GB, 61 tok/s. 8B가 확신했던 배너 엠블럼(

태스크에 따른 최적의 모델

카테고리	승자	이유
OCR / 혼합 스크립트 텍스트	Qwen3-VL 8B	동일 이미지 내에서 중국어와 라틴 문자를 모두 읽음; 다른 모델은 두 문자를 모두 깔끔하게 처리하지 못함.
밀집된 / 복잡한 스크린샷	Gemma 4 26B-A4B	OneRPM 카탈로그에서 타 모델이 약 2,000개 토큰을 처리할 때 3,332개 토큰을 처리함.
속도	Qwen3-VL 4B	61 tok/s, 두 번째로 빠른 모델보다 약 2배 빠름.
다중 패널 레이아웃 분석	GLM-4.6V-Flash	만화 페이지의 패널 수를 실제 11개에 가장 근접하게 파악(12개로 파악); 행 단위 구조 분석이 가장 뛰어남.
코드 추출	무승부 (7개 모델 모두)	모든 모델이 Python 코드 스니펫을 올바른 들여쓰기와 함께 그대로 추출함. 가장 빠른 모델을 사용하십시오.
다이어그램 / 아키텍처	무승부 (7개 중 5개)	Qwen3-VL 8B/4B, Gemma 4 12B/26B, GLM, InternVL3.5 모두 6개 구성 요소를 모두 식별함. Gemma 4 E4B는 확답을 피했으며, InternVL3.5는 간결하게 답변함.

추천 사항:
Qwen3-VL 8B는 모든 용도로 사용하기에 가장 좋은 단일 모델입니다.

하드웨어 사양별

제출자: /u/ex-arman68

[link] [comments]

Insights

가장 좋은 로컬 VLM은 무엇인가? 벤치마크 결과 2026년 6월

요약

핵심 포인트

댓글

BSF, 배양 가죽의 미국 시장 진출을 위한 합작 투자 발표로 주가 56% 급등

Microsoft 실적 발표의 3가지 주요 시사점

화물 시장 업데이트: 공급 능력이 부족한 5가지 신호

연방준비제도(Fed)가 56년 만에 전례 없는 조치를 취했습니다 — 이는 주식 시장에 중대한 시사점을 갖습니다

BSF, 배양 가죽의 미국 시장 진출을 위한 합작 투자 발표로 주가 56% 급등

Microsoft 실적 발표의 3가지 주요 시사점

화물 시장 업데이트: 공급 능력이 부족한 5가지 신호

연방준비제도(Fed)가 56년 만에 전례 없는 조치를 취했습니다 — 이는 주식 시장에 중대한 시사점을 갖습니다