Gemma 4 26B A4B IT QAT 비교
요약
Gemma 4 26B 모델의 다양한 양자화 방식(4-bit, 6-bit, 8-bit QAT)에 대한 성능 벤치마크 결과입니다. MMLU_PRO와 HumanEval 테스트를 통해 QAT 모델이 기존 6-bit 양자화 모델보다 성능이 낮을 수 있음을 시사합니다.
핵심 포인트
- Gemma 4 26B의 6-bit 양자화 모델이 HumanEval에서 가장 높은 성능을 기록함
- 8-bit QAT 모델이 6-bit 모델보다 HumanEval 성능이 낮게 나타남
- QAT가 원본 모델(BF16)과 구별 불가능할 정도로 우수하다는 주장에 의문 제기
- MMLU_PRO 결과는 표본 크기로 인해 통계적 유의미성이 낮을 수 있음
이 게시물이 너무 노력이 적은 것이기를 바랍니다. 방금 벤치마크를 완료했고, 저에게 확실히 통찰력이 있었기 때문에 온라인에 올리려고 합니다. 저는 추론 통계(inferential statistics)를 할 여력이 없어 Gemini 3.1 Pro에게만 통계적으로 유의미한지 물어보는 것 외에는 어떤 AI도 사용하지 않았습니다.
방법론: mlx-community에서 Gemma 4 26BA4B IT를 실행하기 위해 oMLX를 사용했습니다. 저는 다음 모델들을 사용했습니다:
- Gemma 26B 4 Bit: https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-4bit
- Gemma 26B 6 Bit: https://huggingface.co/mlx-community/gemma-4-26b-a4b-it-6bit
- Gemma 26B QAT 8 Bit: https://huggingface.co/mlx-community/gemma-4-26B-A4B-it-qat-8bit
저는 Macbook M5 Pro 64GB에서 oMLX 버전 0.4.1과 비양자화(unquantized) kv 캐시, 그리고 'thinking' 기능을 활성화하여 실행했습니다. 모든 모델에 대해 다음 테스트를 수행했습니다: 50개의 MMLU_PRO 질문과 100개의 HumanEval 질문.
위의 모든 모델 간 채팅 템플릿의 유일한 차이점은 멀티모달 도구 호출(multimodal tool calls)과 관련되어 있어 결과에 영향을 미치지 않았습니다. 또한, 이들은 모두 동일한 방법으로 양자화되었으므로 변수는 원래 모델 가중치여야 합니다. 저는 어떤 mlx 특정 양자화 손상으로 인한 혼란 변수를 피하기 위해 8비트 QAT를 선택했습니다. 제 목표는 QAT 모델을 원본 모델에 가능한 한 가깝게 비교하는 것이었습니다. 이 모델은 QAT 모델의 unsloth q4_k_xl 양자화와 사실상 동일해야 합니다. (진심으로 매우 유사해야 하며, 'TQ4가 기본적으로 BF16과 동일하다'는 의미가 아닙니다.) 저는 사용자들이 기존 양자화를 새로운 QAT 모델로 교체하는 것에 대해 불확실성을 표명한 범위 내에 있기 때문에 mlx 4비트와 6비트 양자화와 비교하기로 결정했습니다.
결과: 모델 벤치마크 백분율 (정답/전체)
Gemma 4 26B IT 4 Bit MMLU_PRO 56.0% (28/50)
Gemma 4 26B IT 4 Bit HUMANEVAL 90.0% (90/100)
Gemma 4 26B IT 6 Bit MMLU_PRO 58.0% (29/50)
Gemma 4 26B IT 6 Bit HUMANEVAL 98.0% (98/100)
Gemma 4 26B IT QAT 8 Bit MMLU_PRO 52.0% (26/50)
Gemma 4 26B IT QAT 8 Bit HUMANEVAL 90.0% (90/100)
해석: 카이제곱 검정 (chi-squared tests)과 z-검정 (z tests) 모두 Gemini에 의해 수행되었습니다. 이 모든 벤치마크 전반에서 차이를 보여주는 유일하게 통계적으로 설득력 있는 증거는 QAT 8 Bit 모델이 HUMANEVAL에서 6 Bit 모델보다 성능이 낮다는 점입니다. MMLU_PRO에서 관찰된 성능 차이는 통계적으로 유의미하지 않으며, 작은 표본 크기 (50개 질문)로 인한 무작위 확률에 기인할 수 있습니다. 따라서 제가 내린 결론은 QAT 모델이 원본 모델의 Q6 양자화 (Q6 quant)보다 성능이 떨어진다는 것입니다. 이는 "QAT는 BF16와 구별할 수 없다" 또는 "분포가 매우 유사하다"라는 주장이 틀렸을 가능성이 높음을 의미합니다. 전체 QAT 모델이 테스트된 8 bit 모델을 이길 가능성은 낮지만, 전체 비(non)-QAT 모델은 q6 모델을 이길 가능성이 매우 높기 때문에, 제가 만들어낸 것보다 더 넓은 격차가 존재할 가능성이 큽니다. QAT는 일반적인 MLX q4 양자화 (q4 quant)보다 명확하게 더 좋거나 나쁘지 않았습니다.
이제 GGUF의 경우, QAT는 여전히 Q4_0를 압도할 가능성이 높고 IQ4_XS와 경쟁할 수도 있겠지만, q4_k, q5, 그리고 심지어 q6 양자화 모델들을 QAT 양자화 모델로 교체해야 한다는 가정은 다소 시기상조인 것으로 보입니다. 현재 보유한 표본 크기가 대략적인 개념을 잡기에는 충분하므로, 나중에 26B에 대해 더 많은 테스트를 수행하거나 31B 모델을 테스트해 볼 수도 있습니다. 창의적 글쓰기 (Creative writing)는 다를 수 있지만, 저는 주로 원본 모델과의 유사성을 측정하고 싶었으며, 벤치마크 성능이 더 낮다는 것은 정의상 유사성이 낮음을 나타냅니다. 또한 이것은 MoE (Mixture of Experts) 모델이므로, 31B에서는 QAT가 더 잘 작동할 수도 있습니다.
요약(Tldr); 양자화되지 않은 Gemma 4 QAT는 양자화되지 않은 Gemma 4보다 성능이 떨어지므로, 5비트, 6비트 또는 동적(dynamic) 4비트 양자화 모델을 Gemma 4 26B QAT로 교체하는 것은 의미가 없을 수도 있습니다. 이러한 관찰 결과가 31B, 12B 또는 E2/4B 모델에도 일반화될지는 알 수 없습니다. /u/GoodTip7897 제출 [link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기