X요약2026. 06. 26. 19:30

단일 NVIDIA B200 GPU에서 Gemma-4-31B BF16의 디코딩 처리량 실험 결과

요약

NVIDIA B200 GPU 환경에서 Gemma-4-31B 모델의 디코딩 처리량 실험 결과를 공유합니다. 단일 요청 시 약 186 tokens/s의 성능을 확인했으며, vLLM 기반의 백엔드 최적화 작업을 진행 중입니다.

핵심 포인트

NVIDIA B200 GPU에서 Gemma-4-31B BF16 모델 테스트
단일 활성 요청 기준 스트림당 약 186 tokens/s 처리량 달성
vLLM 중심의 커스텀 백엔드 최적화 및 실험적 경로 검증
Blackwell 아키텍처 기반의 추론 최적화 가능성 확인

안녕하세요 여러분, 단일 NVIDIA B200 GPU에서 @googlegemma Gemma-4-31B BF16를 사용한 실험을 통해, 단일 활성 요청(single active request)에 대해 스트림당 약 186 tokens/s의 디코딩 처리량(decode throughput)을 관찰했습니다. 🔥🦾

저는 현재 @vllm_project 를 중심으로 커스텀 백엔드 최적화(custom backend optimizations) 작업을 진행하고 있습니다. 이와 병행하여 실제 Q/K/V 텐서 캡처(tensor capture), FlexAttention/FA4 리플레이(replay), 그리고 KV-equal-V 섀도우 캐시(shadow-cache) 실험을 포함한 실험적 경로들을 검증하고 있습니다.

Blackwell과 함께라면, 향후 몇 달간의 추론 최적화(inference optimization) 작업이 믿기지 않을 정도로 흥미진진할 것이라고 생각합니다. 🎉

AI 자동 생성 콘텐츠

원문 바로가기

단일 NVIDIA B200 GPU에서 Gemma-4-31B BF16의 디코딩 처리량 실험 결과

요약

핵심 포인트

댓글