vLLM헤드라인2026. 05. 15. 10:35

주요 사항 이번 릴리스에는 202명의 기여자(49명 신규)가 작성한 367개의 커밋이 포함되어 있습니다

요약

이번 릴리스는 대규모 업데이트를 포함하며, 특히 KV Offloading 서브시스템이 하이브리드 메모리 할당기(HMA)와 통합되고 추측적 디코딩에 '사고 예산' 개념이 도입되어 정확도가 향상되었습니다. vLLM은 PyTorch 호환성을 위해 C++20 빌드를 요구하는 Breaking Change가 발생했습니다. 또한, Blackwell GPU를 위한 새로운 TOKENSPEED_MLA 백엔드와 MiMo-V2.5, Laguna XS.2 등 다양한 최신 아키텍처 및 모델 지원이 추가되었습니다.

핵심 포인트

KV Offloading과 HMA 통합: 스케줄러 측 슬라이딩 윈도우 그룹 지원 및 전체 HMA 활성화로 메모리 관리가 개선됨.
추측적 디코딩 강화: '사고 예산(thinking budget)' 개념 도입으로 추론 모델에 대한 정확한 예측 디코딩이 가능해짐.
하드웨어 최적화: Blackwell GPU를 위한 TOKENSPEED_MLA 어텐션 백엔드가 추가되어 성능 향상을 기대할 수 있음.
다양한 모델 지원 확대: MiMo-V2.5, Laguna XS.2 등 새로운 아키텍처와 Gemma4/Cohere 등의 주요 모델에 대한 최적화 및 수정이 이루어짐.
빌드 요구사항 변경: PyTorch 호환성을 위해 C++20 컴파일러 사용이 필수적인 Breaking Change가 발생함.

주요 사항

이번 릴리스에는 202명의 기여자(49명 신규)가 작성한 367개의 커밋이 포함되어 있습니다.

Transformers v4 지원 중단: 이번 릴리스에서 Transformers v4 지원을 공식적으로 중단합니다 (#40389). 사용자는 Transformers v5로 마이그레이션해야 합니다.

C++20 빌드 요구 사항: vLLM은 이제 PyTorch와의 호환성을 위해 C++20 호환 컴파일러를 요구합니다 (#40380). 이는 빌드 방식이 변경되는 Breaking Change입니다.

KV Offload + 하이브리드 메모리 할당기 (Hybrid Memory Allocator, HMA): KV 오프로딩(offloading) 서브시스템이 이제 스케줄러 측의 슬라이딩 윈도우 그룹(sliding window group) 지원 및 전체 HMA 활성화를 포함하여 하이브리드 메모리 할당기(HMA)와 통합되었습니다 (#41228, #41445, #39571).

사고 예산(thinking budget)을 포함한 추측적 디코딩 (Speculative decoding): 추측적 디코딩이 이제 추론/사고 예산을 준수하여, 추론 모델(reasoning models)에 대한 정확한 추측 디코딩을 가능하게 합니다 (#34668).

Blackwell에서의 TOKENSPEED_MLA 백엔드: Blackwell GPU에서 DeepSeek-R1/Kimi-K25의 프리필(prefill) + 디코딩(decode)을 위한 새로운 TOKENSPEED_MLA 어텐션(attention) 백엔드를 사용할 수 있습니다 (#41778).

모델 지원

새로운 아키텍처: MiMo-V2.5 (#40967), Laguna XS.2 (#41129, #41880), Moondream3 (#32325), Qianfan-OCR (#40136), Cohere MoE (#40817), Cohere Eagle (#42078).

추측적 디코딩 (Speculative decoding): Mistral을 위한 EAGLE (#41024), Gemma4 MTP (#41745), MiMo-V2.5를 위한 MTP (#41905), Cohere Eagle (#42078).

DeepSeek V4: AMD/ROCm 지원 (#40871), 파이프라인 병렬성 (pipeline parallelism, #41694), 최대 추론 노력 (max reasoning effort, #40982), 분리된 서빙(disaggregated serving) 수정 (#41957).

도구 호출 (Tool calling): Cohere 추론 및 도구 파서 (tool parsers, #40422), LFM2/2.5 도구 파서 (#39243).

Gemma3/Gemma4: hidden_act 변형 지원 (#40588), 파이프라인 병렬성 수정 (#40786), MoE 수정 (#41206, #41574, #41401), 도구 파서 충돌 수정 (#41991, #42188).

모델 러너 (Model Runner) V2: Qwen3.5/Mamba 하이브리드 모델 지원 (#35520), logprob_token_ids 지원 (#40559).

CUDA 그래프: Qwen2.5-VL을 위한 ViT CUDA 그래프 지원 (#40830).

호환성: Transformers v5를 위한 Vendor HCXVisionConfig 제공 (#38447), 레거시 rope_type 체크포인트 지원 (#41734).

Engine Core KV offloading + HMA: Scheduler-side sliding window groups (#41228), 전체 HMA 활성화 (#41445), multi-connector HMA (#39571), 작업별 스토어 완료 (per-job store completion, #39186), OffloadingConnector에서의 DCP/PCP 지원 (#41549), 분산 KV offloading을 위한 MooncakeStoreConnector (#40900). Speculative decoding: Thinking budget 지원 (#34668), 독립적인 drafter attention 백엔드 선택 (#39930), 경고와 함께 멀티모달 모델 지원 (#41752), 스텝당 할당 제거 (per-step allocation elimination, #41043). Model Runner V2: Rejection sampling 수락률 수정 (#40651), draft prefill 전 metadata 재구축 건너뛰기 (#40410), draft decode 스텝 사이의 metadata 재구축 (#41162), Qwen3.5/Mamba 하이브리드 지원 (#35520). Routing: routing replay를 device cache 및 비동기 D2H 파이프라인으로 교체 (#39917). Ray: RayExecutorV2 기본 활성화 (#41421), DP > 1일 때의 actor name 충돌 수정 (#40398). Stability: 스케줄러 데드락을 방지하기 위한 2단계 일시 중지 (Two-phase pause, #39366), thread-safe HF tokenizer 래퍼 (#41181), 모델 로딩 중 max_split_size_mb를 통한 OOM 방지 (#41268). DSA 모델을 위한 IndexCache 지원 (#37735). Hardware & Performance NVIDIA Blackwell: DSR1/Kimi-K25를 위한 TOKENSPEED_MLA 백엔드 (#41778), 더 빠른 per-token FP8 group quant packed 커널 (#41326), NVIDIA Thor/SM110에서의 FP8 (#39712), 호환되지 않는 크기에 대한 CUTLASS scaled mm (#41868).

성능 (Performance): FlashInfer top-k/top-p 샘플러 기본 활성화 (#40376), ViT를 위한 FP8 FlashInfer 어텐션 (Attention) (#38065), TurboQuant 공유 역양자화 (dequant) 버퍼 (#40941), AllPool.forward 51% 속도 향상 (#41163), 풀링 (pooling) (#41433) 및 어텐션 (attention) (#41434)에서의 GPU<->CPU 동기화 (sync) 제거, numpy 제로 카피 (zero-copy) 임베딩 직렬화 (#41681), 텍스트 전용 모델을 위한 멀티모달 프로세서 (multimodal processor) 스킵 (#41246), FlashInfer FP8 비동기 (async) TP 퓨전 (fusion) (#39505), AsyncTP를 위한 NVFP4 all-gather GEMM 퓨전 (fusion) (#41882), DP/PP를 위한 allreduce+RMS 퓨전 (fusion) 재활성화 (#41458), torch.mm을 통한 DeepSeek bf16→fp32 변환 (#41300), 희소 (sparse) 백엔드를 위한 지속적 (persistent) MLA (#41990), 설정 가능한 safetensors 체크포인트 프리페치 (prefetch) (#41499), 퓨전된 (fused) mhc_post_pre 커널 (#41536), 2D-grid W8W8 그룹 양자화 (group quant) 커널 (#42153), KV 캐시 스왑 (swaps)을 위한 완화된 메모리 순서 (relaxed memory ordering) (#39306). AMD ROCm: ROCm 7.2.2 (#41386), DBO (Dynamic Batch Optimization) (#34726), AITER Fused Allreduce+RMSNorm (#37646), Qwen3-Next를 위한 Fused Shared Expert (FSE) (#39280), DeepSeek V3.2 TP4 AITER MLA (#41835), GDN 선형 어텐션 (linear attention) 퓨전 (fusion) (#40711), AITER에서의 불필요한 MoE 버퍼 복사 제거 (#41713), CPU 오프로딩 (offloading) 지원 (#40549), DeepEP API 업데이트 (#39721), 공유 메모리 OOM을 해결하기 위해 Triton paged attention 블록 크기 제한 (#38502). CPU: AMX/AVX-512를 위한 FP8 어텐션 (attention) (#39445), FP8 W8A16 선형 (linear) (#41186), FP8 W8A16 MoE (#41314), DNNL AVX2 W8A8 Int8 (#41318), Qwen 3.5/3.6을 위한 Gated DeltaNet 어텐션 (Attention) (#41025), RISC-V OMP 스레드 자동 바인딩 (auto-binding) (#40569). Intel XPU: Top-k/top-p 샘플 커널 (sample kernel) (#39285), out-of-place all-reduce (#41808), LoRA 지원 (#38206). IBM Power: VSX 어텐션 (attention) 백엔드 (#40451). FlexAttention: 배치 불변 (batch invariant) 모드를 위해 재활성화 (#40842). MLA: 추상화된 MLA 프리필 (prefill) 백엔드, cuDNN 의존성 제거 (#32623).

Large Scale Serving
Disaggregated serving: P와 D 간의 양방향 KV 캐시 (KV cache) 전송 (#32553), NIXL 전송 재설계 (#40731), EPLB 메모리 오버헤드 최적화 (#40013), NIXL 커넥터 1.x로 업그레이드 (#42364), 전송 관찰 가능성 (observability)을 위한 Mooncake KVConnectorStats (#40414), NIXL P-node 사전 수락 거부 알림 (#41269), 건너뛴 P-ranks를 위한 KV 블록 해제 (#40449). DCP: DCP A2A에서 출력 및 LSE 패킹 (#41160). MoE: 외부 MoE 러너를 위한 PluggableLayer 인터페이스 (#35178). LoRA: 초기 전문가 병렬 (EP) 지원 (#40867), Qwen3.5 LoRA 퓨전 (fusion) 수정 (#37912). Quantization
NVFP4: KV 캐시 (KV cache) 지원 (#40177), Hopper 및 AMD를 위한 Triton 역양자화 (dequant)/QDQ 에뮬레이션 커널 (#40033), Gemma4를 위한 TRT-LLM NvFP4 퓨전 (fused) MoE 상의 GELU (#41050), ModelOpt NVFP4 W4A16 (#41769), AsyncTP를 위한 NVFP4 all-gather GEMM 퓨전 (fusion) (#41882), GLM4-MoE NVFP4 로딩 수정 (#41755). MXFP4: Humming MXFP4 MoE 백엔드 (#41083), FlashInfer CUTLASS MXFP4-MXFP8 MoE 수정 (#42089). TurboQuant: 하이브리드 모델 및 균일 양자화 (uniform quantization) 지원 (#39931). Compressed tensors: 명시적 무시(non-explicit ignores)가 포함된 설정 허용 (#41965). FP8: Bias 로딩 수정 (#41424), 정확성을 위해 FlashInfer 오토튜닝 (autotune) 일시 중단 (#41524). DSV4: 개선된 퓨전 (fused) Indexer Q 양자화 커널 (#41428). API & Frontend
Responses
API: 필수 (required) 및 이름 지정된 도구/함수 선택 (named tool/function choice)을 포함한 스트리밍 도구/함수 호출 (#40700, #41110), 누락된 필드가 있는 출력 항목 재제출 (#41355). OpenAI 호환성: 응답 내 system_fingerprint 필드 (#40537), prompt_embeds 콘텐츠 파트 지원 (#40720), defer_loading 및 tool_reference 지원 (#40190), chat completion 응답 내 렌더링된 프롬프트 텍스트 (#42052), 강제 도구 선택 (forced tool choice) 시 빈 콘텐츠 허용 (#40148). Tool calling: 엄격한 도구 호출 (strict tool calling) + 추론 (reasoning)을 위한 구조적 태그가 포함된 XGrammar 0.2.0 (#40894), Cohere 추론/도구 파서 (parsers) (#40422), LFM2/2.5 도구 파서 (#39243).

Tokenizer: Fastokens 지원 (#41741). RLHF: 명시적인 /start_weight_update 및 /finish_weight_update API (#39212). ASR: 취소 시 엔진 요청 중단 (#41266). Configuration: VLLM_SKIP_MODEL_NAME_VALIDATION 환경 변수 (#34676), 설정 가능한 모델 가중치 로딩 추적 (#41086), Triton JIT 컴파일 모니터 (#40137). Build & Dependencies Breaking: PyTorch 호환성을 위해 C++20 필요 (#40380). Breaking: Transformers v4 지원 중단 (#40389). FlashInfer cubin 다운로드를 지연시켜 Docker 이미지 크기를 약 2.5 GB 감소시킴 (#41134). CUDA 13.0 wheels를 PyTorch manylinux_2_28 베이스로 전환 (#41416). CPython 호환성을 위해 DeepGEMM 번들 wheel을 Python별로 빌드 (#41516). 컨테이너 이미지 출처 (provenance) 메타데이터 임베딩 (#40653). tpu-inference를 v0.19.0으로 업그레이드 (#41844). NIXL 커넥터를 1.x로 업데이트 (#42364). ROCm 7.2.2 (#41386). Contributors @AndreasKaratzas , @haosdent , @khluu , @yewentao256 , @stecasta , @mgoin , @Isotr0py , @hmellor , @chaunceyjiang , @jeejeelee , @noooop , @MatthewBonanni , @njhill , @zyongye , @yzong-rh , @ronensc , @NickLucche , @chaojun-zhang , @dzhengAP , @chfeng-cs , @TheEpicDolphin , @esmeetu , @wzhao18 , @ZJY0516 , @juliendenize , @kylesayrs , @fadara01 , @Etelis , @tianmu-li , @arpera , @ekagra-ranjan , @orozery , @wxsIcey , @jikunshang , @izhuhaoran , @rasmith , @russellb , @Lucaskabela , @Harry-Chen , @alec-flowers , @pmaybank , @Terrencezzj , @hickeyma , @Baekpica , @itej89 , @fxmarty-amd , @WoosukKwon , @juhi10071998 , @sychen52 , @baonudesifeizhai , @vllmellm , @johncalesp , @the-david-oy , @lucianommartins , @bittoby , @Dao007forever , @lyd1992 , @yuwenzho , @lesj0610 , @sfeng33 , @micah-wil , @akii96 , @yma11 , @SoluMilken , @mmangkad , @SiluPanda , @ojhaanshika , @zhandaz , @bhoomit , @simon-mo , @msanft , @angelayi , @anthonsu , @artem-spector , @zhangxin81 , @benoittgt , @joerowell , @yangrz7 , @chelnnexy , @liangel-02 , @walterbm , @rishitdholakia13 , @SKRohit , @BugenZhao ,

@JaredforReal , @amd-lalithnc , @frgossen , @h-avsha , @DarkLight1337 , @danisereb , @laithsakka , @Bortlesboat , @wangluochao902 , @Rohan138 , @hao-aaron , @puririshi98 , @roikoren755 , @heachary , @UranusSeven , @dsingal0 , @ChenxiQ , @snadampal , @ilmarkov , @wendyliu235 , @lequytra , @JisoLya , @LuisRobaina , @sniper35 , @eicherseiji , @Yuyi-Ao , @raviguptaamd , @sungsooha , @ganyi1996ppo , @andylolu2 , @FredericOdermatt , @ProExpertProg , @rbrugaro-amd , @mcsantiago , @hnt2601 , @jinzhen-lin , @taneem-ibrahim , @tomeras91 , @alex-jw-brooks , @Aktsvigun , @HanFa , @netanel-haber , @JasonKeyiL , @gshtras , @joa-stdn , @Seven-Streams , @JartX , @xuechendi , @BowenBao , @Akashcodes732 , @jeffreywang-anyscale , @czhu-cohere , @zhewenl , @marvinzh , @Lidang-Jiang , @gcanlin , @whx-sjtu , @S1ro1 , @liulanze , @Dhruvilbhatt , @laviier , @wi-adam , @aaab8b , @yuankaichen-amd , @ZhanqiuHu , @QwertyJack , @viktorpusTT , @divakar-amd , @starkwj , @benchislett , @jcyang43 , @JLiu4Coding , @xy3xy3 , @hongxiayang , @amd-mghanimi , @wenyili , @bigPYJ1151 , @s-yanev , @AlonKejzman , @noobHappylife , @TomerBN-Nvidia , @MeganEFlynn , @liuzijing2014 , @jbuchananr , @lokashrinav , @ssam18 , @dllehr-amd , @gmagogsfm , @tpopp , @tjtanaa , @simondanielsson , @zhenwei-intel , @HiroakiMikami , @nholmber , @SumanthRH , @LucasWilkinson , @maeehart , @rishaps , @r-barnes , @gau-nernst , @Kermit-C , @tdoublep , @aoshen02 , @Naveassaf , @wangxingran222 , @cvan20191 , @AbhiOnGithub , @abdulrahman-cohere , @jmamou , @Flink-ddd , @bnellnm , @hqhq1025 , @gnovack , @wangxiyuan , @princepride , @jiahanc , @LCAIZJ, @ovidiusm

신규 기여자 (New Contributors)
@abdulrahman-cohere 님이 #41266 에서 첫 기여를 했습니다.
@AbhiOnGithub 님이 #42180 에서 첫 기여를 했습니다.
@Aktsvigun 님이 #40788 에서 첫 기여를 했습니다.
@amd-mghanimi 님이 #41713 에서 첫 기여를 했습니다.
@Baekpica 님이 #41206 에서 첫 기여를 했습니다.
@benoittgt 님이 #41134 에서 첫 기여를 했습니다.
@bittoby 님이 첫 기여를 했습니다.

#41690 @chelnnexy 님이 #40754 에서 첫 기여를 했습니다.
@ChenxiQ 님이 #40956 에서 첫 기여를 했습니다.
@chfeng-cs 님이 #42066 에서 첫 기여를 했습니다.
@cvan20191 님이 #40951 에서 첫 기여를 했습니다.
@dzhengAP 님이 #41423 에서 첫 기여를 했습니다.
@ghphotoframe 님이 #40859 에서 첫 기여를 했습니다.
@HiroakiMikami 님이 #40588 에서 첫 기여를 했습니다.
@itej89 님이 #39721 에서 첫 기여를 했습니다.
@JasonKeyiL 님이 #41068 에서 첫 기여를 했습니다.
@jbuchananr 님이 #39243 에서 첫 기여를 했습니다.
@JisoLya 님이 #41363 에서 첫 기여를 했습니다.
@JLiu4Coding 님이 #41832 에서 첫 기여를 했습니다.
@juhi10071998 님이 #41050 에서 첫 기여를 했습니다.
@Kermit-C 님이 #42076 에서 첫 기여를 했습니다.
@lequytra 님이 #41401 에서 첫 기여를 했습니다.
@Lidang-Jiang 님이 #38099 에서 첫 기여를 했습니다.
@liulanze 님이 #41571 에서 첫 기여를 했습니다.
@lokashrinav 님이 #41681 에서 첫 기여를 했습니다.
@LuisRobaina 님이 #40720 에서 첫 기여를 했습니다.
@maeehart 님이 #42061 에서 첫 기여를 했습니다.
@marvinzh 님이 #40136 에서 첫 기여를 했습니다.
@mcsantiago 님이 #41492 에서 첫 기여를 했습니다.
@MeganEFlynn 님이 #41880 에서 첫 기여를 했습니다.
@nholmber 님이 #39280 에서 첫 기여를 했습니다.
@pmaybank 님이 #41012 에서 첫 기여를 했습니다.
@raviguptaamd 님이 #34726 에서 첫 기여를 했습니다.
@s-yanev 님이 #41755 에서 첫 기여를 했습니다.
@S1ro1 님이 첫

AI 자동 생성 콘텐츠

원문 바로가기

주요 사항 이번 릴리스에는 202명의 기여자(49명 신규)가 작성한 367개의 커밋이 포함되어 있습니다

요약

핵심 포인트

댓글