vLLM v0.20.2 하이라이트 이번 릴리스는 6명의 기여자(새로운 기여자 없음!)가 참여한 6개의 커밋으로 구성되었습니다
요약
vLLM v0.20.2는 DeepSeek V4, gpt-oss, Qwen3-VL 모델의 버그 수정을 포함하는 작은 패치 릴리스입니다. 이 버전은 총 6명의 기여자가 참여한 6개의 커밋으로 구성되었으며, 특히 DeepSeek V4의 sparse attention 및 KV cache 관리자 관련 문제를 해결했습니다.
핵심 포인트
- DeepSeek V4 모델의 sparse attention 문제(MTP=1 멈춤 현상)를 수정하여 Hopper 아키텍처에서 안정성을 높였습니다.
- vLLM v0.20.2는 DeepSeek V4, gpt-oss, Qwen3-VL 등 주요 모델에 대한 버그 패치에 초점을 맞춘 업데이트입니다.
- 이번 릴리스는 총 6개의 커밋으로 구성되었으며 새로운 기여자는 없습니다.
vLLM v0.20.2 하이라이트
이번 릴리스는 6명의 기여자(새로운 기여자 없음!)가 참여한 6개의 커밋으로 구성되었습니다. DeepSeek V4, gpt-oss, Qwen3-VL의 버그 수정이 포함된 작은 패치 릴리스입니다.
버그 수정
- DeepSeek V4 sparse attention: Hopper에서 영구 topk 경로를 다시 활성화하고, max_seq_len과 관계없이 memset 커널이 CUDA 그래프 캡처 시 실행되도록 하여 DeepSeek V4의 MTP=1 멈춤 현상을 수정했습니다 ( #41665 , #41605 revert).
- DeepSeek V4 KV cache: V1 엔진 KV 캐시 관리자에서
AI 자동 생성 콘텐츠
본 콘텐츠는 vLLM Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기