Gemma 4 26B가 단일 RTX 5090에서 600 Tok/s를 달성함

vLLM에서 DFlash 투기적 디코딩 (speculative decoding)이 실제로 얼마나 도움이 되는지 확인하기 위해 벤치마크를 실행했습니다.

설정:

GPU: RTX 5090, 32GB VRAM
vLLM: 0.19.2rc1
메인 모델 (Main model): cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit
초안 모델 (Draft model): z-lab/gemma-4-26B-A4B-it-DFlash
워크로드 (Workload): 무작위 데이터셋, 입력 토큰 256개, 출력 토큰 1024개
동시성 (Concurrency): 1
요청률 (Request rate): 1
테스트한 num_speculative_tokens 범위: 0부터 15까지

요약:

DFlash 미사용 기준 (Baseline):

약 228 output tok/s
약 4455 ms 평균 E2E 지연 시간 (latency)

최적의 실용적 DFlash 설정:

num_speculative_tokens=13
max_num_batched_tokens=8192
약 578 output tok/s
약 1738 ms 평균 E2E 지연 시간 (latency)
약 2.56배 속도 향상

흥미로운 점 하나: 가장 빠른 평균 설정이 자동으로 최적의 서빙 (serving) 설정은 아니었습니다. max_num_batched_tokens=4096과 num_speculative_tokens=13 조합이 평균 지연 시간 (mean latency)은 약간 더 좋았지만, p95 지연 시간은 더 나빴습니다. 8192로 변경했을 때 더 깔끔한 꼬리 지연 시간 (tail latency)을 보여주었습니다.

설정, 스크립트, 벤치마크 방법, 그래프 및 최종 권장 명령어를 보여주는 짧은 영상을 제작했습니다:

차트 / 스크립트 / 결과:

https://medium.com/@ttio2tech_28094/3a7ac4f73e5d

다른 분들도 DFlash를 사용할 때, 특히 4090/5090 환경이나 다른 Gemma/Qwen 모델에서 유사한 최적의 투기적 토큰 (speculative-token) 수를 경험하고 계시는지 궁금합니다.

Insights

Gemma 4 26B가 단일 RTX 5090에서 600 Tok/s를 달성함

요약

핵심 포인트

댓글

부동산 ETF 대결: Vanguard Real Estate ETF는 낮은 수수료를, FlexShares Global Quality REIT

Schnucks와 VitalityIP, Google Cloud 기반의 에이전틱 커머스 쇼핑 어시스턴트 출시

Ares Management의 2026년 2분기 실적: 예상 전망

Croc GUI: 터미널 없이 사용하는 암호화된 P2P 파일 전송 (크로스 플랫폼)

부동산 ETF 대결: Vanguard Real Estate ETF는 낮은 수수료를, FlexShares Global Quality REIT

Schnucks와 VitalityIP, Google Cloud 기반의 에이전틱 커머스 쇼핑 어시스턴트 출시

Ares Management의 2026년 2분기 실적: 예상 전망

Croc GUI: 터미널 없이 사용하는 암호화된 P2P 파일 전송 (크로스 플랫폼)