vLLM v0.19.0: Gemma 4 지원 및 성능 대폭 개선 하이라이트
요약
vLLM v0.19.0 버전은 Google의 최신 모델인 Gemma 4를 완벽하게 지원하며, MoE(Mixture-of-Experts), 멀티모달, 추론 및 도구 사용 기능을 포함합니다. 주요 개선 사항으로는 'Zero-bubble async scheduling'과 결합된 Speculative Decoding을 통한 처리량(throughput) 대폭 향상, Model Runner V2의 기능 강화(CUDA Graphs, 스트리밍 입력 지원 등), 그리고 일반적인 CPU KV Cache Offloading 메커니즘 도입이 있습니다.
핵심 포인트
- Gemma 4 모델을 완벽하게 지원하며, MoE 및 멀티모달 기능을 포함하여 최신 LLM 아키텍처를 포괄적으로 처리합니다.
- Zero-bubble async scheduling과 Speculative Decoding의 결합으로 처리량이 크게 향상되었으며, 이는 시스템 효율성을 극대화합니다.
- Model Runner V2가 CUDA Graphs 지원 및 스트리밍 입력 기능을 강화하여 파이프라인 병렬성(pipeline parallelism)을 개선했습니다.
- 일반적인 CPU KV Cache Offloading 메커니즘이 도입되어 메모리 관리의 유연성과 범용성을 높였습니다.
vLLM v0.19.0 릴리스는 LLM 추론 엔진의 성능과 기능을 한 단계 끌어올린 대규모 업데이트입니다. 특히 최신 트렌드를 반영한 모델 지원과 시스템 레벨의 병목 현상 해결에 초점을 맞췄습니다.
🚀 핵심 기능 및 모델 지원:
가장 주목할 만한 변화는 Google의 Gemma 4 아키텍처를 완벽하게 지원한다는 점입니다. 이는 MoE(Mixture-of-Experts), 멀티모달, 고급 추론 및 도구 사용(tool-use) 기능을 포함하며, 최신 LLM 개발 환경에 필수적인 요소들을 제공합니다. (필수 조건: transformers>=5.5.0)
⚡ 성능 극대화 아키텍처 개선:
- Zero-bubble async scheduling + Speculative Decoding: 비동기 스케줄링(async scheduling)이 Speculative Decoding과 'zero-bubble overlap'를 지원하게 되면서 처리량(throughput)이 획기적으로 개선되었습니다. 이는 요청 간의 유휴 시간을 최소화하여 시스템 활용도를 극대화합니다.
- Model Runner V2 (MRV2) 성숙: MRV2는 파이프라인 병렬성(pipeline parallelism)을 위한 Piecewise CUDA Graphs를 확보했으며, Speculative Decoding에 대한 거부 샘플러(rejection sampler) 지원 및 멀티모달 임베딩 처리를 강화했습니다. 또한 스트리밍 입력 처리와 EPLB(Estimated Prefix Length Bound) 지원 등 실용적인 기능을 추가했습니다.
- 범용 CPU KV Cache Offloading: V1에서도 사용 가능한 일반적인 CPU KV 캐시 오프로딩 메커니즘이 도입되었습니다. 이는 플러그인 가능한 캐시 정책과 블록 단위 선점 처리(block-level preemption)를 지원하여 메모리 관리의 범용성과 안정성을 크게 높였습니다.
💻 기술적 확장성 및 호환성:
- ViT Full CUDA Graphs: Vision Encoder (ViT)가 전체 CUDA 그래프 캡처를 지원하게 되어 오버헤드가 감소하고 처리 속도가 향상되었습니다. (Vision-Language Model 환경에 중요)
- DBO (Dual-Batch Overlap) 일반화: 마이크로 배치 최적화(microbatch optimization)인 DBO가 특정 아키텍처에 국한되지 않고 범용 모델에서도 작동하도록 확장되었습니다.
- 하드웨어 지원 강화: NVIDIA의 B300/GB300 (SM 10.3)을 위한 Allreduce Fusion이 기본 활성화되었으며, Blackwell 등 최신 GPU 아키텍처를 염두에 둔 최적화가 이루어졌습니다.
🛠️ 기타 주요 개선 사항:
- 모델 호환성: HuggingFace Transformers v5와의 광범위한 호환성 수정이 이루어져 다양한 모델 사용 시 안정성이 높아졌습니다. (예: NemotronH, Qwen3-VL 등 다수 모델 패치)
- LoRA 확장:
--lora-target-modules옵션을 통해 LoRA를 특정 모듈에 제한할 수 있게 되어 미세 조정(Fine-tuning)의 유연성이 증가했습니다.
이러한 업데이트들은 vLLM을 단순한 추론 엔진을 넘어, 최신 AI 모델의 복잡하고 다양한 요구사항을 충족시키는 범용적이고 고성능의 플랫폼으로 자리매김하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 vLLM Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기