시각 지능(Vision)을 위한 최고의 로컬 모델 - 2차 벤치마크 업데이트 - 2026년 6월 21일

요약

VLM(Vision Language Model)의 성능을 측정하기 위한 2차 벤치마크 업데이트 결과입니다. 하드웨어 VRAM 용량별 최적 모델을 제안하며, 사고(Thinking) 모드가 시각 지능에는 오히려 부정적인 영향을 미칠 수 있음을 밝힙니다.

핵심 포인트

VRAM 용량별 최적 모델: 4-8GB(Qwen3.5 4B), 12-16GB(Qwen3-VL 8B), 24GB+(Qwen3.6 27B)
사고(Thinking) 모드는 시각적 지각(Perception) 성능을 저하시키고 불안정성을 유발함
MoE 모델의 파라미터 수가 반드시 시각적 지각의 깊이를 보장하지는 않음
Gemma 4의 비전 예산 최적화 및 양자화 설정에 따른 성능 변화 분석

이전에 제 VLM (Vision Language Model) 벤치마크의 첫 번째 결과를 게시한 바 있습니다. 벤치마크를 수정하고 확장하기 위해 몇 가지 유용한 의견과 관찰 사항을 반영했습니다.

처음에는 기본값이 280으로 설정되어 사실상 무용지물이었던 Gemma 4의 비전 예산(vision budget)을 고려하지 않았습니다. 최근 여기에 게시된 최적의 설정인 --image-min-tokens 560 --image-max-tokens 2240을 사용하여 이를 최대 수준으로 높였습니다.
이미지 토큰이 여러 블록으로 나뉘는 것을 방지하기 위해 -b 4096 -ub 4096 파라미터를 사용했습니다 (기본값은 512입니다).
ollama에서 llama.cpp로 전환했습니다.
더 많은 사용 사례를 다루기 위해 데이터셋을 20장에서 30장의 이미지로 확장했습니다.
사고(thinking) 모드와 비사고(non-thinking) 모드의 영향을 테스트하기 위해 벤치마크를 확장했습니다.
첫 번째 벤치마크에는 Q4 양자화(quants) 모델만 포함되었으나, 소형 모델의 경우 Q8 양자화 모델까지 확장했습니다.
첫 번째 벤치마크에서는 각 이미지를 한 번씩만 테스트했으나, 이제 이미지당 3회 테스트를 수행합니다.

총 23개 모델 x 30개 이미지 x 3회 테스트 = 2,070회 테스트 (실패, 튜닝, 재실행 제외), 60~70시간의 추론(inference) 시간이 소요되었습니다.
이번에는 하드웨어 계층별로 세 가지 추천 모델을 선정했습니다:

VRAM 계층	선택 모델	크기	점수	속도
4–8 GB	Qwen3.5 4B (nothink) @ Q4	3.2 GB	75.5/100	20 s/img
12–16 GB	Qwen3-VL 8B @ Q8 (Q4 아님)	8.1 GB	74.4/100	26 s/img
24+ GB	Qwen3.6 27B (nothink) @ Q4	16.9 GB	79.6/100	70 s/img

예상하지 못했던 몇 가지 흥미로운 결과가 있었습니다:

사고(Thinking) 모드는 시각 지능에 해롭습니다. 모든 Qwen 하이브리드 사고 모델은 enable_thinking=false일 때 더 높은 점수를 기록했습니다. 이는 시각(vision)이 추론(reasoning)이 아닌 지각(perception)이기 때문입니다. 사고 모드는 불안정성, 타임아웃, 빈 출력(empty outputs)을 유발합니다.
MoE(Mixture of Experts) 크기는 시각 지능 측면에서 오해의 소지가 있습니다. MoE 모델은 훨씬 작은 밀집(dense) 모델과 동등한 성능을 보이거나, 동일한 규모의 밀집 모델보다 성능이 떨어집니다. MoE가 작은 모델들의 집합이라는 점을 생각하면 돌이켜볼 때 이해가 됩니다. 전체 파라미터 수가 많은 것은 지식의 폭(knowledge breadth)을 넓혀주지만, 밀도(density)에 따라 확장되는 지각의 깊이(perception depth)를 보장하지는 않습니다.
Q8 양자화가 반드시 성능 향상을 보장하는 것은 아닙니다.

이는 Gemma 4를 개선하며(더 일관적이고, 환각(hallucinations)이 적음), Qwen thinker 모델들을 무력화합니다(생각하는 데 너무 많은 시간을 소비하여 빈번한 타임아웃(timeout)이 발생함). 엄격한 의미에서 승리인 유일한 Q8 모델은 Qwen3-VL 8B-Q8입니다(비-thinking 모델이기 때문).

다음은 유효 점수(effective score, raw × 완료율) 순으로 정렬된 전체 품질 순위입니다. σ는 3회 실행 간의 안정성(stability)을 나타냅니다.

변형 양자화 모드(Variant Quant Mode) 점수(Score) σ 성공(Successful) 비고(Note)

1 Qwen3.6 27B Q4 nothink 79.6 0.24 90/90 챔피언(Champion)
2 Qwen3.6 27B Q4 think 78.2 0.26 81/90 동일 모델, 더 느림
3 Qwen3.6 35B-A3B Q4 nothink 76.4 0.55 90/90 MoE
4 Qwen3.5 4B Q4 nothink 75.5 0.48 90/90 최고의 GB당 포인트(pts/GB)
5 GLM-4.6V-Flash 9B Q4 — 75.1 0.53 90/90 중국어 OCR에 최적
6 Qwen3.6 35B-A3B Q4 think 75.0 0.31 90/90 MoE
7 Gemma 4 31B Q4 — 74.6 0.45 90/90 느림 (93초)
8 Qwen3-VL 8B Q8 — 74.4 0.33 90/90 유일하게 완벽한 Q8
9 Qwen3-VL 8B Q4 — 73.1 0.52 90/90
10 Qwen3.5 9B Q4 nothink 73.1 0.58 90/90
11 Gemma 4 26B-A4B Q4 — 72.7 0.51 90/90
12 Qwen3.5 9B Q4 think 72.7 0.52 90/90
13 GLM-9B Q8 — 73.4 raw / 68.5 eff 0.51 84/90 Q4 대비 하락
14 Qwen3.5 4B Q4 think 70.6 0.77 90/90 불안정함
15 Qwen3-VL 4B Q4 — 65.9 0.76 90/90 성능 저하(Degenerates)
16 Qwen3.5 4B Q8 nothink partial — Q4 대비 하락
17 Qwen3-VL 4B Q8 — 65.3 1.03 87/93 최악의 σ
18 Gemma 4 12B Q8 — 76.6 raw / 59.7 eff 0.28 74/95 22% 타임아웃
19 Gemma 4 12B Q4 — 64.1 0.66 90/90 환각(Hallucinations)
20 Gemma 4 E4B Q8 — 63.9 0.46 78/90
21 Gemma 4 E4B Q4 — 58.8 0.60 90/90 잘못된 수치 계산
22 Qwen3.5 9B Q8 nothink partial — 약 85% 실패, 사용 불가
23 Qwen3.5 9B Q8 think partial — 약 60% 실패, 사용 불가

테스트 방법론

사양: Apple M2 Max, 96GB RAM
런타임: llama.cpp b9690 (llama-server 경유)
모델: 11개의 베이스 모델, Q4_K_M; 7개의 소형 모델에 Q8_0 추가
하이브리드 thinking 모델(Qwen3.5/3.6)은 thinking 활성화 및 비활성화 상태 모두 테스트
스크린샷, 사진, 포스터, 예술, 의료, 과학 그래프, 밀집된 장면(dense scenes) 및 다국어 콘텐츠를 포함한 30개의 이미지

(모델 × 이미지)당 3회 실행, 중앙값(median) 점수 기록
하이브리드 점수 산정 방식: 40% 결정론적 프로브 (OCR, 개수 세기, 환각 체크) + 60% LLM 판사 (각 이미지에 대해 인간이 작성한 상세한 정답(ground truth) 설명 기반)
타임아웃: 호출당 300초 (제어되지 않는 사고(runaway thinking) 발생 시 즉시 실패 처리)

제출자: /u/ex-arman68
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

시각 지능(Vision)을 위한 최고의 로컬 모델 - 2차 벤치마크 업데이트 - 2026년 6월 21일

요약

핵심 포인트

변형 양자화 모드(Variant Quant Mode) 점수(Score) σ 성공(Successful) 비고(Note)

댓글