본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 04:08

다양한 Gemma 및 Qwen 양자화(Quantization)의 정확도를 비교하는 인위적인 테스트

요약

Gemma 및 Qwen 모델의 다양한 양자화(Quantization) 방식에 따른 정확도를 산술, 역사 지식, 주의력 테스트를 통해 비교 분석한 결과입니다. 모델 크기와 양자화 기법(QAT, UD 등)이 성능에 미치는 영향을 실험적으로 보여줍니다.

핵심 포인트

  • 모델 파라미터 크기가 클수록 양자화 손실에 더 강한 경향을 보임
  • QAT(Quantization-Aware Training) 적용 시 정확도 유지에 유리함
  • 산술 및 주의력 테스트에서 양자화 비트 수에 따른 성능 차이가 뚜렷함
  • Unsloth의 최적화된 양자화 파일들이 다양한 벤치마크에서 성능을 입증함

저는 주로 저 자신을 위해 이 테스트를 수행했습니다. 왜냐하면 발표된 KLD 수치는 해석하기 어렵고, 예를 들어 9B-Q4와 4B-Q8를 비교할 수는 없기 때문입니다. 하지만 관심 있는 분들과 결과를 기꺼이 공유하고자 합니다.

테스트 1 (산술 (Arithmetic))
다음과 같은 1000개의 질문:

다음 질문에 대한 답변으로 숫자 하나만 출력하세요. 다른 것은 아무것도 출력하지 마세요. 쉼표나 언더스코어(_)를 사용하지 마세요. 매우 중요합니다. 998604052310776342 + 249349834805792420 = ?

테스트 2 (대통령 (Presidents))
다음과 같은 46개의 질문:

Zachary Taylor 대통령의 생년월일은 무엇입니까? 신력 (New Style calendar)을 사용하세요. 추가 출력 없이 YYYY-MM-DD 형식으로 답변하세요.

테스트 3 (주의력 (Attention))
다음과 같은 100개의 질문:

다음 단어 시퀀스에서 한 단어가 두 번 나타납니다. 그 단어를 출력하세요. 다른 출력은 생성하지 마세요. 단어 목록: pick glad how told held did fill wing only sugar ... wing ... (총 1001개 단어)

정확도 (Accuracy)

RepoFileNotesArithmeticPresidentsAttention
unslothgemma-4-E2B-it-Q8_0.gguf1.4%28.3%0.0%
unslothgemma-4-E4B-it-Q8_0.gguf0.1%65.2%3.0%
unslothgemma-4-12b-it-Q4_K_S.gguf31.0%67.4%35.0%
unslothgemma-4-12b-it-Q4_K_S.gguftemperature=128.9%
unslothgemma-4-26B-A4B-it-UD-Q4_K_S.gguf72.3%97.8%55.0%
googlegemma-4-26B_q4_0-it.ggufQAT51.0%82.6%43.0%
unslothgemma-4-26B-A4B-it-qat-UD-Q4_K_XL.ggufQAT51.1%89.1%39.0%
unslothgemma-4-26B-A4B-it-Q8_0.gguf73.0%97.8%52.0%
unslothgemma-4-31B-it-UD-IQ2_XXS.gguf9.4%10.9%21.0%
unslothgemma-4-31B-it-Q4_K_S.gguf83.8%93.5%87.0%
unslothQwen3.5-4B-Q4_0.gguf30.7%60.9%29.0%
unslothQwen3.5-4B-Q4_K_S.gguf54.1%82.6%31.0%
unslothQwen3.5-4B-Q8_0.gguf57.8%73.9%45.0%
hauhauCSQwen3.5-9B-...-Q4_K_M.gguf"Aggressive"65.0%78.3%63.0%
unslothQwen3.6-27B-Q4_K_S.ggufMTP95.5%100.0%93.0%
hauhauCSQwen3.6-27B-...-Q4_K_P.gguf"Aggressive"tbd100.0%95.0%
unslothQwen3.6-35B-A3B-UD-Q4_K_S.gguf87.4%100.0%71.0%
unslothQwen3.6-35B-A3B-UD-Q4_K_S.gguftemperature=186.5%

hauhauCS Qwen3.6-35B-A3B-...-Q4_K_P.gguf "Aggressive" 89.8% 100.0% 56.0%
unsloth Qwen3.6-35B-A3B-Q8_0.gguf 85.3% 100.0% 77.0%

(더 많은 모델을 실행하면 표를 수정하겠습니다)
설정 (Settings)

enable_thinking=false, 왜냐하면 사고(thinking)는 다음 토큰 예측 (next token prediction) 위에 구축되어 있으며, 저는 단지 이 기저의 과정을 평가하려고 하기 때문입니다.
temperature=0 (별도 명시가 없는 한), 왜냐하면 여기서는 실제로 이것이 최적이기 때문입니다 -- 사고(thinking)가 없고 불필요한 출력이 허용되지 않는 상황에서는 단 하나의 정답 완성(completion)만이 존재합니다.

방법론 (Methods)
llama-server -m ... -c ...

토론 (Discussion)

만약 당신이 미래에 이 글을 읽고 있다면, QAT (Quantization-Aware Training) 문제가 해결되었을 수도 있습니다. 한번 시도해 보세요.

자주 묻는 질문 (FAQ)

"왜 이 질문들에 답하기 위해 LLM이 필요한가요?" -- 이것은 LLM에 대한 테스트이기 때문입니다.

제출자: /u/we_are_mammals
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0