vLLM중요헤드라인2026. 04. 24. 03:47

vLLM 0.18.1 패치 노트: 주요 버그 수정 및 최적화 업데이트

요약

vLLM의 v0.18.1 버전은 v0.18.0을 기반으로 여러 중요한 버그를 수정한 패치 릴리스입니다. 이 업데이트는 SM100 MLA 프리필 백엔드를 TRT-LLM으로 복구하고, Python <= 3.10 환경에서 발생하는 `mock.patch` 관련 문제를 해결했습니다. 또한, Qwen3.5 FP8 모델의 Blackwell 아키텍처에서의 DeepGemm E8M0 정확도 저하를 수정하는 등 성능 및 안정성 개선에 초점을 맞추고 있습니다.

핵심 포인트

SM100 MLA 프리필 백엔드를 TRT-LLM으로 기본값 복구 (Issue #38562)하여 호환성을 높였습니다.
Python 3.10 이하 환경에서 `standalone_compile.FakeTensorMode` 관련 `mock.patch` 실패 문제를 해결했습니다 (Issue #37158).
Blackwell 아키텍처에서 Qwen3.5 FP8 모델의 DeepGemm E8M0 정확도 저하 버그를 수정했습니다 (Issue #38083).
Renormalize 라우팅을 위해 모놀리식 TRTLLM MoE 기능을 비활성화했습니다 (Issue #37605).

vLLM의 v0.18.1 버전은 이전 릴리스인 v0.18.0에서 발견된 여러 버그와 호환성 문제를 해결하는 패치 릴리스입니다. 이 업데이트는 시스템 안정성과 특정 하드웨어/모델 조합에서의 정확도를 높이는 데 중점을 두고 있습니다.

주요 수정 사항 및 개선점:

SM100 MLA 프리필 백엔드 복구 (Issue #38562): 기본(default) SM100 MLA 프리필 백엔드를 다시 TRT-LLM으로 설정했습니다. 이는 특정 환경에서 발생했던 호환성 문제를 해결하고 안정적인 구동을 보장합니다.
Python 3.10 이하 환경 호환성 개선 (Issue #37158): Python 버전이 3.10 이하인 경우, standalone_compile.FakeTensorMode에 대한 mock.patch 해상도 실패 문제를 수정했습니다. 이는 구형 파이썬 환경에서 vLLM을 사용할 때 발생할 수 있는 예기치 않은 오류를 방지합니다.
TRTLLM MoE 기능 조정 (Issue #37605): Renormalize 라우팅(routing)의 경우, 모놀리식 TRTLLM MoE 기능을 비활성화했습니다. 이는 특정 아키텍처나 워크로드에서 발생할 수 있는 충돌이나 오작동을 방지하기 위함입니다.
Blackwell 및 Qwen3.5 FP8 정확도 수정 (Issue #38083): Blackwell 하드웨어 환경에서 Qwen3.5 모델을 FP8 정밀도로 사용할 때 발생하던 DeepGemm E8M0의 정확도 저하 문제를 해결했습니다. 이는 고성능 컴퓨팅 환경에서의 모델 신뢰성을 크게 향상시킵니다.
Docker 빌드 개선 (Issue #38391): Docker 빌드 과정에서 누락되던 FlashInfer 헤더를 사전에 다운로드하도록 수정하여, 컨테이너 환경에서의 구축 안정성을 높였습니다.

결론적으로, v0.18.1은 특정 버전의 Python 지원, 최신 GPU 아키텍처(Blackwell)에서의 모델 정확도 보장, 그리고 핵심 백엔드의 호환성 복구에 초점을 맞춘 필수적인 패치 업데이트입니다. 사용자는 이 버전을 통해 더 안정적이고 신뢰할 수 있는 vLLM 환경을 구축할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

vLLM 0.18.1 패치 노트: 주요 버그 수정 및 최적화 업데이트

요약

핵심 포인트

댓글