본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 15. 08:04

Gemma 4 26B가 단일 RTX 5090에서 600 Tok/s를 달성함

요약

본 벤치마크는 vLLM을 사용하여 Gemma 4 26B 모델에 DFlash 투기적 디코딩(speculative decoding)이 미치는 성능 향상을 검증했습니다. RTX 5090 환경에서 DFlash를 최적으로 설정했을 때, 기본(Baseline) 대비 약 2.56배의 속도 향상과 높은 처리량(throughput)을 달성할 수 있었습니다. 특히, 단순히 가장 빠른 평균 속도가 아닌, p95 지연 시간까지 고려한 최적의 서빙 설정을 찾는 것이 중요함을 보여주었습니다.

핵심 포인트

  • DFlash 투기적 디코딩은 Gemma 4 26B 모델에서 상당한 성능 향상(약 2.56배)을 제공합니다.
  • 최적의 성능 설정은 단순히 평균 속도만 고려할 것이 아니라, p95와 같은 꼬리 지연 시간(tail latency)까지 종합적으로 고려해야 합니다.
  • 벤치마크는 vLLM과 RTX 5090 환경에서 진행되었으며, 구체적인 최적 파라미터 조합을 제시했습니다.

vLLM에서 DFlash 투기적 디코딩 (speculative decoding)이 실제로 얼마나 도움이 되는지 확인하기 위해 벤치마크를 실행했습니다.

설정:

  • GPU: RTX 5090, 32GB VRAM
  • vLLM: 0.19.2rc1
  • 메인 모델 (Main model): cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit
  • 초안 모델 (Draft model): z-lab/gemma-4-26B-A4B-it-DFlash
  • 워크로드 (Workload): 무작위 데이터셋, 입력 토큰 256개, 출력 토큰 1024개
  • 동시성 (Concurrency): 1
  • 요청률 (Request rate): 1
  • 테스트한 num_speculative_tokens 범위: 0부터 15까지

요약:

DFlash 미사용 기준 (Baseline):

  • 약 228 output tok/s
  • 약 4455 ms 평균 E2E 지연 시간 (latency)

최적의 실용적 DFlash 설정:

  • num_speculative_tokens=13
  • max_num_batched_tokens=8192
  • 약 578 output tok/s
  • 약 1738 ms 평균 E2E 지연 시간 (latency)
  • 약 2.56배 속도 향상

흥미로운 점 하나: 가장 빠른 평균 설정이 자동으로 최적의 서빙 (serving) 설정은 아니었습니다. max_num_batched_tokens=4096과 num_speculative_tokens=13 조합이 평균 지연 시간 (mean latency)은 약간 더 좋았지만, p95 지연 시간은 더 나빴습니다. 8192로 변경했을 때 더 깔끔한 꼬리 지연 시간 (tail latency)을 보여주었습니다.

설정, 스크립트, 벤치마크 방법, 그래프 및 최종 권장 명령어를 보여주는 짧은 영상을 제작했습니다:

https://youtu.be/S_zbHH5Ycs0

차트 / 스크립트 / 결과:

https://medium.com/@ttio2tech_28094/3a7ac4f73e5d

다른 분들도 DFlash를 사용할 때, 특히 4090/5090 환경이나 다른 Gemma/Qwen 모델에서 유사한 최적의 투기적 토큰 (speculative-token) 수를 경험하고 계시는지 궁금합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0