본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 06. 15. 09:31

Gemma 4 12B QAT MTP를 사용하여 12GB VRAM에서 120 tok/s 달성

요약

Gemma 4 12B QAT 모델과 MTP(Multi-Token Prediction) 기술을 활용하여 12GB VRAM 환경에서 초당 120 tok/s 이상의 추론 속도를 달성한 벤치마크 결과입니다. llama.cpp와 Unsloth의 양자화 모델을 결합하여 효율적인 추론 환경을 구축했습니다.

핵심 포인트

  • Gemma 4 12B QAT 모델을 활용해 12GB VRAM 내에서 구동 성공
  • MTP 기술 적용 시 기존 대비 약 2배 빠른 추론 속도 달성
  • llama.cpp와 Unsloth GGUF 모델을 이용한 최적화 워크플로우
  • RTX 4070 Super 환경에서 120~130 tok/s 성능 확인

Google이 12B를 포함한 Gemma 4 모델의 QAT (Quantization-Aware Training, 양자화 인식 훈련) 변형을 막 출시했기에, 제 12GB GPU의 VRAM에 완전히 들어가는 것을 확인하고 벤치마크를 진행하는 것은 매우 자연스러운 일이었습니다. 결과에 매우 놀랐습니다! Gemma 4 MTP PR이 패치된 llama.cpp를 사용하고, Unsloth의 gemma-4-12B-it-qat-GGUF 양자화 모델과 Google의 gemma-4-12B-it-qat-q4_0-unquantized-assistant QAT 어시스턴트 / 드래프트 (draft) 모델을 로드했습니다. 저는 이 모델을 llama.cpp의 convert_hf_to_gguf.py를 사용하여 GGUF로 변환한 뒤 HuggingFace에 gemma-4-12B-it-qat-assistant-MTP-Q8_0-GGUF로 업로드했습니다. 이를 통해 mtp-bench.py에서 120 tok/s를 달성할 수 있었습니다!

시작하기 전에, 제 PC 사양은 다음과 같습니다:
OS: CachyOS
GPU: RTX 4070 Super 12GB (iGPU를 메인 GPU로 사용)
CPU: AMD Ryzen 7 9700X
RAM: 32GB DDR5-6000

제 llama.cpp 명령어는 다음과 같습니다:
lama-server \
-m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf \
--model-draft gemma-4-12B-it-qat-assistant-MTP-Q8_0.gguf \
--spec-type draft-mtp \
--spec-draft-n-max 4 \
--parallel 1 \
--ctx-size 131072 \
--temp 1.0 \
--top-p 0.95 \
--top-k 64

비교를 위해, MTP를 사용하지 않았을 때의 mtp-bench.py 벤치마크 결과입니다:
❯ ./mtp-bench.py code_python pred= 192 draft= 0 acc= 0 rate=n/a tok/s=59.9
code_cpp pred= 192 draft= 0 acc= 0 rate=n/a tok/s=60.0
explain_concept pred= 192 draft= 0 acc= 0 rate=n/a tok/s=59.9
summarize pred= 192 draft= 0 acc= 0 rate=n/a tok/s=59.9
qa_factual pred= 192 draft= 0 acc= 0 rate=n/a tok/s=59.9
translation pred= 192 draft= 0 acc= 0 rate=n/a tok/s=60.0
creative_short pred= 192 draft= 0 acc= 0 rate=n/a tok/s=60.0
stepwise_math pred= 192 draft= 0 acc= 0 rate=n/a tok/s=59.8
long_code_review pred= 192 draft= 0 acc= 0 rate=n/a tok/s=57.6
Aggregate: { "n_requests": 9, "total_predicted": 1728, "total_draft": 0, "total_draft_accepted": 0, "aggregate_accept_rate": null, "wall_s_total": 30.2 }

MTP를 사용했을 때의 mtp-bench.py 벤치마크 결과입니다:
❯ ./mtp-bench.py code_python pred= 192 draft= 172 acc= 133 rate=0.773 tok/s=130.5
code_cpp pred= 192 draft= 187 acc= 128 rate=0.684 tok/s=120.4

explain_concept pred= 192 draft= 213 acc= 119 rate=0.559 tok/s=105.7 summarize pred= 192 draft= 168 acc= 134 rate=0.798 tok/s=133.5 qa_factual pred= 192 draft= 210 acc= 120 rate=0.571 tok/s=107.2 translation pred= 192 draft= 175 acc= 132 rate=0.754 tok/s=128.6 creative_short pred= 192 draft= 240 acc= 110 rate=0.458 tok/s=94.0 stepwise_math pred= 192 draft= 165 acc= 135 rate=0.818 tok/s=135.7 long_code_review pred= 192 draft= 197 acc= 125 rate=0.634 tok/s=111.7 Aggregate: { "n_requests": 9, "total_predicted": 1728, "total_draft": 1727, "total_draft_accepted": 1136, "aggregate_accept_rate": 0.6578, "wall_s_total": 15.66 } 이를 달성하려면 12GB NVIDIA GPU와 Gemma 4 12GB 및 assistant를 모두 GPU 메모리에 완전히 적재할 수 있는 충분한 여유 VRAM만 있으면 됩니다. CachyOS를 사용하고 dGPU를 보조 GPU로 설정하면 거의 100%의 여유 VRAM을 얻게 됩니다. Windows에서는 또는 dGPU를 주 GPU로 사용하는 경우, OS와 드라이버에 500MB 이상의 VRAM이 손실될 수 있으므로 컨텍스트 크기를 낮추거나 아예 작동하지 않을 수도 있습니다. 테스트가 필요할 것입니다 😄 다음은 이것을 작동시키기 위한 단계별 지침입니다: 1. llama.cpp 클론하기 git clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp 2. Gemma 4 MTP PR 브랜치 가져오기 및 전환하기 git fetch origin pull/23398/head:gemma4-mtp git checkout gemma4-mtp 3. NVIDIA GPU용 CUDA 지원으로 빌드하기 cmake -B build -DGGML_CUDA=ON -DBUILD_SHARED_LIBS=OFF cmake --build build --config Release -j$(nproc) 4. Unsloth의 Gemma 4 12B QAT를 여기서 다운로드하세요: https://huggingface.co/unsloth/gemma-4-12B-it-qat-GGUF 5. Google의 Gemma 4 assistant / draft를 여기서 다운로드하세요 https://huggingface.co/Janvitos/gemma-4-12B-it-qat-assistant-MTP-Q8_0-GGUF 6.

llama-server llama-server \ -m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf \ --model-draft gemma-4-12B-it-qat-assistant-MTP-Q8_0.gguf \ --spec-type draft-mtp \ --spec-draft-n-max 4 \ --parallel 1 \ --ctx-size 131072 \ --temp 1.0 \ --top-p 0.95 \ --top-k 64 Cheers 😄 submitted by /u/janvitos to r/LocalLLaMA [link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0