vLLM v0.20.2 하이라이트 이번 릴리스는 6명의 기여자(새로운 기여자 없음!)가 참여한 6개의 커밋으로 구성되었습니다

요약

vLLM v0.20.2는 DeepSeek V4, gpt-oss, Qwen3-VL 모델의 버그 수정을 포함하는 작은 패치 릴리스입니다. 이 버전은 총 6명의 기여자가 참여한 6개의 커밋으로 구성되었으며, 특히 DeepSeek V4의 sparse attention 및 KV cache 관리자 관련 문제를 해결했습니다.

핵심 포인트

DeepSeek V4 모델의 sparse attention 문제(MTP=1 멈춤 현상)를 수정하여 Hopper 아키텍처에서 안정성을 높였습니다.
vLLM v0.20.2는 DeepSeek V4, gpt-oss, Qwen3-VL 등 주요 모델에 대한 버그 패치에 초점을 맞춘 업데이트입니다.
이번 릴리스는 총 6개의 커밋으로 구성되었으며 새로운 기여자는 없습니다.

vLLM v0.20.2 하이라이트

이번 릴리스는 6명의 기여자(새로운 기여자 없음!)가 참여한 6개의 커밋으로 구성되었습니다. DeepSeek V4, gpt-oss, Qwen3-VL의 버그 수정이 포함된 작은 패치 릴리스입니다.

버그 수정

DeepSeek V4 sparse attention: Hopper에서 영구 topk 경로를 다시 활성화하고, max_seq_len과 관계없이 memset 커널이 CUDA 그래프 캡처 시 실행되도록 하여 DeepSeek V4의 MTP=1 멈춤 현상을 수정했습니다 ( #41665 , #41605 revert).
DeepSeek V4 KV cache: V1 엔진 KV 캐시 관리자에서

AI 자동 생성 콘텐츠

원문 바로가기

vLLM v0.20.2 하이라이트 이번 릴리스는 6명의 기여자(새로운 기여자 없음!)가 참여한 6개의 커밋으로 구성되었습니다

요약

핵심 포인트

댓글