Reddit요약2026. 06. 15. 09:31

Gemma 4 QAT 벤치마크 결과 (AMD 7900 XTX): 더 빠르고, VRAM 사용량은 적으며, 품질 저하 없음

요약

AMD 7900 XTX 환경에서 Gemma 4 QAT(양자화 인식 학습) 모델의 성능을 벤치마크한 결과입니다. QAT 모델은 기존 양자화 모델 대비 품질 저하 없이 속도는 향상시키고 VRAM 사용량은 줄이는 탁월한 효율성을 보여주었습니다.

핵심 포인트

Gemma 4 QAT 모델은 BF16 수준의 품질을 유지하며 속도와 효율성 개선
12B QAT 모델은 Q8_0 대비 생성 시간 45% 단축 및 VRAM 5.7GB 절약
26B 및 31B QAT 모델 모두 품질 저하 없이 속도 향상 및 VRAM 절약 확인
AMD 7900 XTX 및 ROCm 환경에서 테스트 완료

저는 이 7900 XTX로 많은 테스트를 반복하며 진행해 왔습니다. 저의 모든 워크로드(workload)는 Qwen 3.6 모델에 의존하고 있었으며, 참고로 이 모델들은 정말 놀랍지만, 저는 사고의 다양성을 원했습니다. 구체적으로는 Honcho 워크로드 티어(tier)와 서로 다른 크론 잡(cron jobs)을 위해서입니다. 모든 워크로드가 에이전트 튜닝된 모델(agentic-tuned model)로부터 이득을 얻는 것은 아니기에, Gemma 4 모델들을 더 많이 테스트해 왔습니다. 또한, Gemma 4 제품군에 대해 양자화 인식 학습 (Quantization-Aware Training, QAT) 버전을 출시했는데, 보고에 따르면 Q4 가중치(weights)를 사용하면서도 BF16 가중치의 충실도(fidelity)를 유지한다고 합니다. 저는 두 세트 간의 차이점과 유의미한 차이가 있는지 확인하기 위해 A/B 비교를 수행했습니다. 높은 충실도에서 더 빠른 속도를 가진 더 작은 모델이라니, 누가 이런 공짜 점심을 싫어하겠습니까! 설정 버전/플래그(flags) 등이 포함된 상세 보고서는 다음과 같습니다. 제 에이전트가 실제 초당 토큰 수(tok/s) 측정값을 잡지는 못했지만(물론 그렇겠죠), 일반적인 실제 경과 시간(wall clock times)을 통해 대략적인 개념을 파악하실 수 있습니다. 데이터가 포함된 전체 보고서: https://kmarble.dev/posts/gemma-4-qat-benchmark-same-quality-faster-less-vram/

모델별 요약(TL;DR):
• Q8_0 대비 12B QAT — 가장 눈에 띄는 교체. 총 생성 시간을 323초에서 176초로 단축(45% 더 빠름), 처리량(throughput) 83% 증가, VRAM 5.7GB 절약. 모든 프롬프트에서 품질이 동일함. 제약 사항 준수(constraint-following) 시, 일반 Q8_0는 초안을 반복하는 데 124초를 소비한 반면, QAT는 24초 만에 완수함.
• UD-Q4 대비 26B QAT — 효율적임. 일관된 완만한 이득(1.0x-1.38x 속도 향상), VRAM 2GB 절약. temp=1.0에서 어떤 프롬프트 유형에서도 품질 저하가 관찰되지 않음.
• Q4_K_M 대비 31B QAT — 적은 VRAM 절약에도 불구하고 가치가 있음. 1.3x-1.5x 더 빠르며, 실제로 총 출력량이 8% 더 많았음. 창의적 이어쓰기(creative continuation)에서: 일반 모델은 710자를 생성하고 멈췄으나, QAT는 1256자까지 진행함.
• E4B — 지금은 건너뛰세요. 비트 너비(bit-width) 차이로 인해 결과가 혼동됨 (일반 모델은 q8_0, QAT는 q4 수준). 동일한 정밀도(precision) 비교가 필요함.

토큰 제한 없이 temp=1.0에서 llama-swap을 통해 단일 AMD 7900 XTX/ROCm에서 테스트되었습니다. 실제 생성 내용을 자세히 파고들고 싶은 분들을 위해 전체 원본 출력값(~170KB 마크다운)을 제공합니다. /u/IvGranite가 r/LocalLLaMA에 게시함 [link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Gemma 4 QAT 벤치마크 결과 (AMD 7900 XTX): 더 빠르고, VRAM 사용량은 적으며, 품질 저하 없음

요약

핵심 포인트

댓글