본문으로 건너뛰기

© 2026 Molayo

vLLM헤드라인2026. 05. 13. 19:57

vLLM v0.20.2 하이라이트 이번 릴리스는 6명의 기여자(새로운 기여자 없음!)가 참여한 6개의 커밋으로 구성되었습니다

요약

vLLM v0.20.2는 DeepSeek V4, gpt-oss, Qwen3-VL 모델의 버그 수정을 포함하는 작은 패치 릴리스입니다. 이 버전은 총 6명의 기여자가 참여한 6개의 커밋으로 구성되었으며, 특히 DeepSeek V4의 sparse attention 및 KV cache 관리자 관련 문제를 해결했습니다.

핵심 포인트

  • DeepSeek V4 모델의 sparse attention 문제(MTP=1 멈춤 현상)를 수정하여 Hopper 아키텍처에서 안정성을 높였습니다.
  • vLLM v0.20.2는 DeepSeek V4, gpt-oss, Qwen3-VL 등 주요 모델에 대한 버그 패치에 초점을 맞춘 업데이트입니다.
  • 이번 릴리스는 총 6개의 커밋으로 구성되었으며 새로운 기여자는 없습니다.

vLLM v0.20.2 하이라이트

이번 릴리스는 6명의 기여자(새로운 기여자 없음!)가 참여한 6개의 커밋으로 구성되었습니다. DeepSeek V4, gpt-oss, Qwen3-VL의 버그 수정이 포함된 작은 패치 릴리스입니다.

버그 수정

  • DeepSeek V4 sparse attention: Hopper에서 영구 topk 경로를 다시 활성화하고, max_seq_len과 관계없이 memset 커널이 CUDA 그래프 캡처 시 실행되도록 하여 DeepSeek V4의 MTP=1 멈춤 현상을 수정했습니다 ( #41665 , #41605 revert).
  • DeepSeek V4 KV cache: V1 엔진 KV 캐시 관리자에서

AI 자동 생성 콘텐츠

본 콘텐츠는 vLLM Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0