Reddit요약2026. 06. 18. 10:29

DiffusionGemma vs Gemma 4: 단일 RTX 6000 Pro NVFP4에서 6배 이상 빠른 속도

요약

RTX 6000 Blackwell 환경에서 DiffusionGemma와 Gemma 4의 추론 속도를 비교한 벤치마크 결과입니다. DiffusionGemma가 Gemma 4 대비 약 6.73배 빠른 토큰 생성 속도를 보여주며 아키텍처의 효율성을 입증했습니다.

핵심 포인트

DiffusionGemma가 Gemma 4보다 약 6.7배 빠른 처리량(tok/s) 기록
단일 RTX 6000 Blackwell GPU 및 vLLM 환경에서 테스트 수행
디퓨전 아키텍처는 특정 반복 작업에 최적화 시 높은 효율성 기대
높은 속도와 성능 사이의 트레이드오프 존재

여러분 안녕하세요,
로컬 환경에서 제대로 된 사이드 바이 사이드 (side-by-side) 벤치마크를 실행했습니다: DiffusionGemma 26B-A4B vs Gemma 4 26B-A4B, 둘 다 NVFP4이며, 단일 RTX PRO 6000 Blackwell 상의 Docker 내 vLLM을 통해 서빙되었습니다.

모델:
nvidia/Gemma-4-26B-A4B-NVFP4
nvidia/diffusiongemma-26B-A4B-it-NVFP4

하드웨어:

CPU: AMD Ryzen 9 9950X (Zen 5, 16C/32T, 5.76 GHz 부스트)
GPU: NVIDIA RTX PRO 6000 Blackwell (96 GB VRAM, TDP 600W)
RAM: 92 GB
CUDA: 13.1 · 드라이버 (Driver): 590.48.01
OS: Linux Ubuntu · Xorg/GNOME

결과 — 10회 실행, 동일한 프롬프트:

모델 평균 tok/s

nvidia/Gemma-4-26B-A4B-NVFP4 157
nvidia/diffusiongemma-26B-A4B-it-NVFP4 1,062

속도 향상 (Speedup) 평균 tok/s 6.73x
https://preview.redd.it/ihphrwza1x7h1.png?width=2538&format=png&auto=webp&s=f092f62fba0b72e8eae9f6ea123dabc65e7a906f

실행 방법: 두 모델을 --gpu-memory-utilization 0.42로 동시에 서빙하여 간섭 없이 동일한 GPU를 공유하도록 했습니다. 재현성을 위해 고정된 시드 (Fixed seed, 1234)를 사용하였고, 실행당 최대 29k 토큰까지 처리하며 결과는 자동으로 CSV에 저장되었습니다. 설계상 KV 캐시 (KV cache) 영향을 최소화하려고 노력했지만, 이것이 단일 사용자 로컬 설정이라는 점은 주목할 가치가 있습니다. 바로 이 지점에서 디퓨전 (diffusion) 아키텍처의 이점이 드러납니다. 배치 (batched) 사용자가 있는 클라우드 환경에서는 여전히 자기회귀 (autoregressive) 방식이 더 나은 선택입니다. 저는 동일한 GPU를 사용하기 때문에 제 장비 하나에서 이들을 실행합니다.

주의할 점: 벤치마크 점수가 표준 Gemma 4보다 낮습니다. 이는 단순한 각주가 아닌 실제적인 트레이드오프 (trade-off)입니다. 흥미로운 지점은 이러한 처리량 (throughput)이 실제로 필요한 특정 반복 작업에 대해 미세 조정 (fine-tuning)을 하는 경우입니다. Unsloth는 이미 타겟팅된 학습 데이터를 통해 스도쿠 (Sudoku)에서 0%에서 80%로 성능을 올리는 것을 보여주었습니다. 잘 정의된 반복 작업과 좋은 데이터가 있다면, 이 아키텍처는 진지하게 고려하고 미세 조정할 가치가 있다고 생각합니다. 혹시 시도해 보신 분 계신가요?

Docker Compose, uv sync, 벤치마크 앱(benchmark app) 및 리더보드(leaderboard)를 포함한 전체 설정: https://github.com/lukaLLM/diffusiongemma-vs-gemma4-speed-benchmark
질문이 있으신 경우를 위한 가이드 영상: https://youtu.be/wdjTR596KAU

/u/FantasticNature7590 님이 r/LocalLLaMA 에 제출함
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

DiffusionGemma vs Gemma 4: 단일 RTX 6000 Pro NVFP4에서 6배 이상 빠른 속도

요약

핵심 포인트

댓글