다양한 Gemma 및 Qwen 양자화(Quantization)의 정확도를 비교하는 인위적인 테스트

저는 주로 저 자신을 위해 이 테스트를 수행했습니다. 왜냐하면 발표된 KLD 수치는 해석하기 어렵고, 예를 들어 9B-Q4와 4B-Q8를 비교할 수는 없기 때문입니다. 하지만 관심 있는 분들과 결과를 기꺼이 공유하고자 합니다.

테스트 1 (산술 (Arithmetic))
다음과 같은 1000개의 질문:

다음 질문에 대한 답변으로 숫자 하나만 출력하세요. 다른 것은 아무것도 출력하지 마세요. 쉼표나 언더스코어(_)를 사용하지 마세요. 매우 중요합니다. 998604052310776342 + 249349834805792420 = ?

테스트 2 (대통령 (Presidents))
다음과 같은 46개의 질문:

Zachary Taylor 대통령의 생년월일은 무엇입니까? 신력 (New Style calendar)을 사용하세요. 추가 출력 없이 YYYY-MM-DD 형식으로 답변하세요.

테스트 3 (주의력 (Attention))
다음과 같은 100개의 질문:

다음 단어 시퀀스에서 한 단어가 두 번 나타납니다. 그 단어를 출력하세요. 다른 출력은 생성하지 마세요. 단어 목록: pick glad how told held did fill wing only sugar ... wing ... (총 1001개 단어)

정확도 (Accuracy)

Repo	File	Notes	Arithmetic	Presidents	Attention
unsloth	gemma-4-E2B-it-Q8_0.gguf		1.4%	28.3%	0.0%
unsloth	gemma-4-E4B-it-Q8_0.gguf		0.1%	65.2%	3.0%
unsloth	gemma-4-12b-it-Q4_K_S.gguf		31.0%	67.4%	35.0%
unsloth	gemma-4-12b-it-Q4_K_S.gguf	temperature=1	28.9%
unsloth	gemma-4-26B-A4B-it-UD-Q4_K_S.gguf		72.3%	97.8%	55.0%
google	gemma-4-26B_q4_0-it.gguf	QAT	51.0%	82.6%	43.0%
unsloth	gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf	QAT	51.1%	89.1%	39.0%
unsloth	gemma-4-26B-A4B-it-Q8_0.gguf		73.0%	97.8%	52.0%
unsloth	gemma-4-31B-it-UD-IQ2_XXS.gguf		9.4%	10.9%	21.0%
unsloth	gemma-4-31B-it-Q4_K_S.gguf		83.8%	93.5%	87.0%
unsloth	Qwen3.5-4B-Q4_0.gguf		30.7%	60.9%	29.0%
unsloth	Qwen3.5-4B-Q4_K_S.gguf		54.1%	82.6%	31.0%
unsloth	Qwen3.5-4B-Q8_0.gguf		57.8%	73.9%	45.0%
hauhauCS	Qwen3.5-9B-...-Q4_K_M.gguf	"Aggressive"	65.0%	78.3%	63.0%
unsloth	Qwen3.6-27B-Q4_K_S.gguf	MTP	95.5%	100.0%	93.0%
hauhauCS	Qwen3.6-27B-...-Q4_K_P.gguf	"Aggressive"	tbd	100.0%	95.0%
unsloth	Qwen3.6-35B-A3B-UD-Q4_K_S.gguf		87.4%	100.0%	71.0%
unsloth	Qwen3.6-35B-A3B-UD-Q4_K_S.gguf	temperature=1	86.5%

hauhauCS Qwen3.6-35B-A3B-...-Q4_K_P.gguf "Aggressive" 89.8% 100.0% 56.0%
unsloth Qwen3.6-35B-A3B-Q8_0.gguf 85.3% 100.0% 77.0%

(더 많은 모델을 실행하면 표를 수정하겠습니다)
설정 (Settings)

enable_thinking=false, 왜냐하면 사고(thinking)는 다음 토큰 예측 (next token prediction) 위에 구축되어 있으며, 저는 단지 이 기저의 과정을 평가하려고 하기 때문입니다.
temperature=0 (별도 명시가 없는 한), 왜냐하면 여기서는 실제로 이것이 최적이기 때문입니다 -- 사고(thinking)가 없고 불필요한 출력이 허용되지 않는 상황에서는 단 하나의 정답 완성(completion)만이 존재합니다.

방법론 (Methods)
llama-server -m ... -c ...

토론 (Discussion)

만약 당신이 미래에 이 글을 읽고 있다면, QAT (Quantization-Aware Training) 문제가 해결되었을 수도 있습니다. 한번 시도해 보세요.

자주 묻는 질문 (FAQ)

"왜 이 질문들에 답하기 위해 LLM이 필요한가요?" -- 이것은 LLM에 대한 테스트이기 때문입니다.

제출자: /u/we_are_mammals
[link] [comments]

Insights

다양한 Gemma 및 Qwen 양자화(Quantization)의 정확도를 비교하는 인위적인 테스트

요약

핵심 포인트

댓글

Linux 7.3, MCTP-Over-USB v1.1 지원 추가

AI는 추론에 탁월합니다. 워크플로(Workflows)에 사용하는 것은 멈추세요.

AI 에이전트가 대본을 벗어날 때: OpenAI와 Anthropic의 최근 사건이 노출(Exposure)에 대해 우리에게 가르쳐 주는 것

Gamma 무료인가요? 400 크레딧은 갱신되지 않습니다: 첫 생성 전 deck을 확인하세요

Linux 7.3, MCTP-Over-USB v1.1 지원 추가

AI는 추론에 탁월합니다. 워크플로(Workflows)에 사용하는 것은 멈추세요.

AI 에이전트가 대본을 벗어날 때: OpenAI와 Anthropic의 최근 사건이 노출(Exposure)에 대해 우리에게 가르쳐 주는 것

Gamma 무료인가요? 400 크레딧은 갱신되지 않습니다: 첫 생성 전 deck을 확인하세요