
[3090] Gemma 4 QAT + MTP 빠른 TPS 수치 [요약 1.2-1.8배 향상]
요약
Gemma 4 모델에 QAT와 MTP 기술을 적용하여 RTX 3090과 같은 24GB 이하 GPU 환경에서 추론 속도(TPS)를 1.2~1.8배 향상시킨 사례를 소개합니다. llama-server 설정을 통해 멀티모달 및 텍스트 모델 모두에서 유의미한 성능 개선을 확인했습니다.
핵심 포인트
- QAT와 MTP 적용 시 Gemma 4의 추론 속도가 대폭 향상됨
- RTX 3090(24GB VRAM) 환경에서 효율적인 모델 실행 가능
- MTP 설정 시 n-max 값에 따른 최적의 성능 변화 확인
- 멀티모달 및 텍스트 전용 모델 모두에서 동일한 속도 향상 효과
지난 몇 주간은 24GB(및 그 이하) GPU를 사용하는 가난한 사용자들에게 신이 내린 선물과도 같았습니다. 강력한 모델들이 출시되었습니다 (Gemma 4 / Qwen 3.6). QAT를 통한 무료 지능, MTP를 통한 추가 속도 향상. 우리는 GPU가 부족한(24GB 이하) 사람들이 더 이상 실제로 가난하지 않은 임계점에 도달했습니다. 저는 이미 40tok/s로 실행되는 Gemma 4 31b에 만족하고 있었지만, 이제는 70-80tok/s가 나옵니다. 3090 가격이 상승하는 것도 놀라운 일이 아닙니다. 참고용 정보:
- limit=1, OSL=192, concurrency 1, temp=1.0/top_k=64/top_p=0.95, ctx=40960, q8_0 KV cache, parallel=1
- 12b의 경우, 텍스트 전용(TEXT only)과 mmproj 멀티모달(multimodal) 모두 테스트했습니다. 동일한 속도 향상이 나타났습니다. (모델과 실제로 대화할 수 있다는 점이 정말 마음에 듭니다. 응답 생성을 시작하기 전까지 찰나의 순간밖에 걸리지 않습니다. 아직 TTS는 지원되지 않지만요)
• 하드웨어
- CPU: Intel Core i9-13900H, 14 cores / 20 threads
- RAM: 62 GiB system RAM, 8 GiB swap
- GPU: NVIDIA GeForce RTX 3090, 24 GiB VRAM
- Driver/CUDA: NVIDIA driver 595.71.05, CUDA 13.2
- OS/kernel: Ubuntu 24.04-ish, Linux 6.17.0-35-generic
시작 설정(Startup config):
llama-server \
-m gemma-4-12B-it-qat-UD-Q4_K_XL.gguf \
--model-draft gemma-4-12B-it-qat-assistant-MTP-Q8_0.gguf \
--spec-type draft-mtp \
--spec-draft-n-max 4 \
--parallel 1 \
--ctx-size 40960 \
--temp 1.0 \
--top-p 0.95 \
--top-k 64 \
--spec-draft-ngl all \
--spec-draft-type-k q8_0 \
--spec-draft-type-v q8_0
업데이트: 26b의 경우, 최적의 N-max는 1로 나타났으며, 이는 1.26배의 속도 향상을 제공합니다: tok/s 속도 향상 설정 수용
━━━━━━━━━ ━━━━━━━━ ━━━━━━━━━ ━━━━━━━━
no MTP 143.01 1.00x
- ───────── ──────── ───────── ────────
n-max 1 180.01 1.26x 0.765 - ───────── ──────── ───────── ────────
n-max 2 175.77 1.23x 0.654 - ───────── ──────── ───────── ────────
n-max 3 170.37 1.19x 0.576 - ───────── ──────── ───────── ────────
n-max 4 165.90 1.16x 0.492 - ───────── ──────── ───────── ────────
n-max 5 155.51 1.09x 0.444
참고: 이 수치들은 Temp 1.0 기준이므로 수치에 어느 정도 확률적 변동성(stochastic volatility)이 있을 수 있지만, 방향성은 올바르다고 생각합니다. 또한, 이 빠른 테스트의 세부 사항은 무엇인가요?
코딩, 인문학, 수학, QA, RAG, 추론 (reasoning), STEM, 작문 (writing), 다국어 (multilingual), 요약 (summarization), 역할극 (roleplay) 각각 1개씩 총 11개의 요청을 사용했습니다. 할당된 컨텍스트 (Context)는 40960이지만, 프롬프트 길이 (prompt lengths)는 약 22에서 1578 토큰 사이였으며 평균은 약 280 토큰이었습니다. 출력 목표는 턴당 --osl 192입니다. 일부 샘플은 멀티 턴 (multi-turn)이므로, 최대 전체 길이는 15턴 * 192 = 2880 생성 토큰이지만, 정지 토큰 (stop tokens)에 의해 샘플이 조기에 종료될 수 있습니다. 이는 Gemma 4 (3090 GPU 기준)에서 QAT + MTP가 미칠 잠재적 영향을 대략적으로 파악하기 위한 빠르고 간이적인 벤치마크 (benchmark)를 목적으로 합니다. 컨텍스트 (context) + 깊이 (depth)에 대한 완전하고 적절한 그리드 (grid) 테스트는 별도로 진행될 예정입니다. /u/LeatherRub7248이 r/LocalLLaMA에 제출함 [link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기