Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
vLLM Releases 5건필터 해제
CUDA 12.9/13.0 (두 아키텍처 모두) 을 사용하는 4 개의 Ubuntu 22.04 릴리스 이미지 빌드가 약 30 분 동안 멈추거나 간
CUDA 12.9/13.0을 사용하는 Ubuntu 22.04 기반의 Docker 이미지 빌드 과정에서, `add-apt-repository ppa:deadsnakes/ppa`가 Launchpad REST API 호출 실패(타임아웃)로 인해 중단되거나 간헐적으로 실패하는 문제가 발생했습니다. 이 문제를 해결하기 위해, 불안정한 외부 API 호출을 우회하고 안정적인 미러를 사용하는 방식으로 Dockerfile의 apt 소스 추가 방식을 수정할 것을 제안합니다.
v0.19.0rc0: [Feat][v1] Simple yet General CPU KV Cache Offloading (#37160)
이 기술 기사는 v0.19.0rc0 버전에서 도입된 CPU KV Cache Offloading 기능을 소개합니다. 이 기능은 간단하면서도 범용적으로 사용 가능하며, 모델의 추론 과정에서 발생하는 키-값(KV) 캐시를 CPU 메모리로 오프로드하여 효율성을 높이는 것을 목표로 합니다. 이는 특히 리소스 제약이 있거나 최적화가 필요한 환경에서 성능 향상에 기여할 것으로 기대됩니다.
vLLM 0.18.1 패치 노트: 주요 버그 수정 및 최적화 업데이트
vLLM의 v0.18.1 버전은 v0.18.0을 기반으로 여러 중요한 버그를 수정한 패치 릴리스입니다. 이 업데이트는 SM100 MLA 프리필 백엔드를 TRT-LLM으로 복구하고, Python <= 3.10 환경에서 발생하는 `mock.patch` 관련 문제를 해결했습니다. 또한, Qwen3.5 FP8 모델의 Blackwell 아키텍처에서의 DeepGemm E8M0 정확도 저하를 수정하는 등 성능 및 안정성 개선에 초점을 맞추고 있습니다.
vLLM v0.19.0: Gemma 4 지원 및 성능 대폭 개선 하이라이트
vLLM v0.19.0 버전은 Google의 최신 모델인 Gemma 4를 완벽하게 지원하며, MoE(Mixture-of-Experts), 멀티모달, 추론 및 도구 사용 기능을 포함합니다. 주요 개선 사항으로는 'Zero-bubble async scheduling'과 결합된 Speculative Decoding을 통한 처리량(throughput) 대폭 향상, Model Runner V2의 기능 강화(CUDA Graphs, 스트리밍 입력 지원 등), 그리고 일반적인 CPU KV Cache Offloading 메커니즘 도입이 있습니다.
vLLM v0.19.1 패치 노트: Gemma 4 및 트랜스포머 업데이트 주요 개선 사항
vLLM의 v0.19.1 패치 버전은 핵심 라이브러리인 Transformers를 v5.5.3으로 업그레이드하고, 특히 Gemma 4 모델 사용 시 발생하는 다양한 버그들을 집중적으로 수정했습니다. 주요 개선 사항으로는 Gemma 4 스트리밍 도구 호출 관련 JSON 파싱 오류 해결, HTML 중복 문제 방지, 그리고 양자화된 MoE(Mixture-of-Experts) 지원 추가가 포함됩니다. 개발자는 이 업데이트를 통해 안정성을 높이고 최신 모델 아키텍처에 대한 호환성을 확보할 수 있습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.