단일 NVIDIA B200 GPU에서 Gemma-4-31B BF16의 디코딩 처리량 실험 결과
요약
NVIDIA B200 GPU 환경에서 Gemma-4-31B 모델의 디코딩 처리량 실험 결과를 공유합니다. 단일 요청 시 약 186 tokens/s의 성능을 확인했으며, vLLM 기반의 백엔드 최적화 작업을 진행 중입니다.
핵심 포인트
- NVIDIA B200 GPU에서 Gemma-4-31B BF16 모델 테스트
- 단일 활성 요청 기준 스트림당 약 186 tokens/s 처리량 달성
- vLLM 중심의 커스텀 백엔드 최적화 및 실험적 경로 검증
- Blackwell 아키텍처 기반의 추론 최적화 가능성 확인
안녕하세요 여러분, 단일 NVIDIA B200 GPU에서 @googlegemma Gemma-4-31B BF16를 사용한 실험을 통해, 단일 활성 요청(single active request)에 대해 스트림당 약 186 tokens/s의 디코딩 처리량(decode throughput)을 관찰했습니다. 🔥🦾
저는 현재 @vllm_project 를 중심으로 커스텀 백엔드 최적화(custom backend optimizations) 작업을 진행하고 있습니다. 이와 병행하여 실제 Q/K/V 텐서 캡처(tensor capture), FlexAttention/FA4 리플레이(replay), 그리고 KV-equal-V 섀도우 캐시(shadow-cache) 실험을 포함한 실험적 경로들을 검증하고 있습니다.
Blackwell과 함께라면, 향후 몇 달간의 추론 최적화(inference optimization) 작업이 믿기지 않을 정도로 흥미진진할 것이라고 생각합니다. 🎉
AI 자동 생성 콘텐츠
본 콘텐츠는 X @alicankiraz0 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기