다양한 Gemma 및 Qwen 양자화(Quantization)의 정확도를 비교하는 인위적인 테스트
요약
Gemma 및 Qwen 모델의 다양한 양자화(Quantization) 방식에 따른 정확도를 산술, 역사 지식, 주의력 테스트를 통해 비교 분석한 결과입니다. 모델 크기와 양자화 기법(QAT, UD 등)이 성능에 미치는 영향을 실험적으로 보여줍니다.
핵심 포인트
- 모델 파라미터 크기가 클수록 양자화 손실에 더 강한 경향을 보임
- QAT(Quantization-Aware Training) 적용 시 정확도 유지에 유리함
- 산술 및 주의력 테스트에서 양자화 비트 수에 따른 성능 차이가 뚜렷함
- Unsloth의 최적화된 양자화 파일들이 다양한 벤치마크에서 성능을 입증함
저는 주로 저 자신을 위해 이 테스트를 수행했습니다. 왜냐하면 발표된 KLD 수치는 해석하기 어렵고, 예를 들어 9B-Q4와 4B-Q8를 비교할 수는 없기 때문입니다. 하지만 관심 있는 분들과 결과를 기꺼이 공유하고자 합니다.
테스트 1 (산술 (Arithmetic))
다음과 같은 1000개의 질문:
다음 질문에 대한 답변으로 숫자 하나만 출력하세요. 다른 것은 아무것도 출력하지 마세요. 쉼표나 언더스코어(_)를 사용하지 마세요. 매우 중요합니다. 998604052310776342 + 249349834805792420 = ?
테스트 2 (대통령 (Presidents))
다음과 같은 46개의 질문:
Zachary Taylor 대통령의 생년월일은 무엇입니까? 신력 (New Style calendar)을 사용하세요. 추가 출력 없이 YYYY-MM-DD 형식으로 답변하세요.
테스트 3 (주의력 (Attention))
다음과 같은 100개의 질문:
다음 단어 시퀀스에서 한 단어가 두 번 나타납니다. 그 단어를 출력하세요. 다른 출력은 생성하지 마세요. 단어 목록: pick glad how told held did fill wing only sugar ... wing ... (총 1001개 단어)
정확도 (Accuracy)
| Repo | File | Notes | Arithmetic | Presidents | Attention |
|---|---|---|---|---|---|
| unsloth | gemma-4-E2B-it-Q8_0.gguf | 1.4% | 28.3% | 0.0% | |
| unsloth | gemma-4-E4B-it-Q8_0.gguf | 0.1% | 65.2% | 3.0% | |
| unsloth | gemma-4-12b-it-Q4_K_S.gguf | 31.0% | 67.4% | 35.0% | |
| unsloth | gemma-4-12b-it-Q4_K_S.gguf | temperature=1 | 28.9% | ||
| unsloth | gemma-4-26B-A4B-it-UD-Q4_K_S.gguf | 72.3% | 97.8% | 55.0% | |
| gemma-4-26B_q4_0-it.gguf | QAT | 51.0% | 82.6% | 43.0% | |
| unsloth | gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf | QAT | 51.1% | 89.1% | 39.0% |
| unsloth | gemma-4-26B-A4B-it-Q8_0.gguf | 73.0% | 97.8% | 52.0% | |
| unsloth | gemma-4-31B-it-UD-IQ2_XXS.gguf | 9.4% | 10.9% | 21.0% | |
| unsloth | gemma-4-31B-it-Q4_K_S.gguf | 83.8% | 93.5% | 87.0% | |
| unsloth | Qwen3.5-4B-Q4_0.gguf | 30.7% | 60.9% | 29.0% | |
| unsloth | Qwen3.5-4B-Q4_K_S.gguf | 54.1% | 82.6% | 31.0% | |
| unsloth | Qwen3.5-4B-Q8_0.gguf | 57.8% | 73.9% | 45.0% | |
| hauhauCS | Qwen3.5-9B-...-Q4_K_M.gguf | "Aggressive" | 65.0% | 78.3% | 63.0% |
| unsloth | Qwen3.6-27B-Q4_K_S.gguf | MTP | 95.5% | 100.0% | 93.0% |
| hauhauCS | Qwen3.6-27B-...-Q4_K_P.gguf | "Aggressive" | tbd | 100.0% | 95.0% |
| unsloth | Qwen3.6-35B-A3B-UD-Q4_K_S.gguf | 87.4% | 100.0% | 71.0% | |
| unsloth | Qwen3.6-35B-A3B-UD-Q4_K_S.gguf | temperature=1 | 86.5% |
hauhauCS Qwen3.6-35B-A3B-...-Q4_K_P.gguf "Aggressive" 89.8% 100.0% 56.0%
unsloth Qwen3.6-35B-A3B-Q8_0.gguf 85.3% 100.0% 77.0%
(더 많은 모델을 실행하면 표를 수정하겠습니다)
설정 (Settings)
enable_thinking=false, 왜냐하면 사고(thinking)는 다음 토큰 예측 (next token prediction) 위에 구축되어 있으며, 저는 단지 이 기저의 과정을 평가하려고 하기 때문입니다.
temperature=0 (별도 명시가 없는 한), 왜냐하면 여기서는 실제로 이것이 최적이기 때문입니다 -- 사고(thinking)가 없고 불필요한 출력이 허용되지 않는 상황에서는 단 하나의 정답 완성(completion)만이 존재합니다.
방법론 (Methods)
llama-server -m ... -c ...
토론 (Discussion)
만약 당신이 미래에 이 글을 읽고 있다면, QAT (Quantization-Aware Training) 문제가 해결되었을 수도 있습니다. 한번 시도해 보세요.
자주 묻는 질문 (FAQ)
"왜 이 질문들에 답하기 위해 LLM이 필요한가요?" -- 이것은 LLM에 대한 테스트이기 때문입니다.
제출자: /u/we_are_mammals
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기