vLLM중요헤드라인2026. 04. 24. 03:43

vLLM v0.19.1 패치 노트: Gemma 4 및 트랜스포머 업데이트 주요 개선 사항

요약

vLLM의 v0.19.1 패치 버전은 핵심 라이브러리인 Transformers를 v5.5.3으로 업그레이드하고, 특히 Gemma 4 모델 사용 시 발생하는 다양한 버그들을 집중적으로 수정했습니다. 주요 개선 사항으로는 Gemma 4 스트리밍 도구 호출 관련 JSON 파싱 오류 해결, HTML 중복 문제 방지, 그리고 양자화된 MoE(Mixture-of-Experts) 지원 추가가 포함됩니다. 개발자는 이 업데이트를 통해 안정성을 높이고 최신 모델 아키텍처에 대한 호환성을 확보할 수 있습니다.

핵심 포인트

Transformers 라이브러리가 v5.5.3으로 업그레이드되어 전반적인 호환성과 기능이 개선되었습니다.
Gemma 4 사용 시 스트리밍 도구 호출의 JSON 파싱 오류, HTML 중복 등 여러 버그가 수정되어 안정성이 크게 향상되었습니다.
Gemma 4 모델에 대한 양자화된 MoE(Mixture-of-Experts) 지원 및 Eagle3 지원이 추가되었습니다.

vLLM v0.19.1은 이전 버전인 v0.19.0을 기반으로 진행된 패치 릴리즈로, 핵심 라이브러리 업데이트와 특정 모델에 대한 버그 수정에 초점을 맞추고 있습니다.

가장 눈에 띄는 변화는 Transformers 라이브러리가 v5.5.3으로 업그레이드되었다는 점입니다. 이 업그레이드는 전반적인 안정성 향상과 최신 트랜스포머 모델 아키텍처 지원을 보장합니다.

이번 패치에서 가장 많은 개선이 이루어진 부분은 Gemma 4 모델 관련 기능들입니다. 개발자들이 Gemma 4를 스트리밍 환경에서 사용할 때 발생할 수 있는 다양한 문제를 해결했습니다. 주요 수정 내용은 다음과 같습니다:

도구 호출(Tool Calls) 안정성 강화: 이전 버전에서 발생하던 Gemma 4의 스트리밍 도구 호출 관련 JSON 파싱 오류를 부분 구분자 제거 방식으로 수정하여 데이터 무결성을 확보했습니다.
프론트엔드/스트리밍 버그 해결: 도구 호출 후 발생하는 HTML 중복 문제(HTML duplication)와, 분할된 불리언/숫자 값으로 인한 스트리밍 도구 호출 손상 문제를 해결했습니다.
모델 아키텍처 지원 확대: Gemma 4에 대해 양자화된 MoE (Mixture-of-Experts)를 지원하도록 기능을 추가했으며, Gemma 4 Eagle3 모델도 지원 범위에 포함되었습니다.

그 외에도 여러 세부적인 버그 수정이 이루어졌습니다. 예를 들어, adjust_request가 추론 파서(reasoning parser)로 조정되었고, Gemma 4의 토큰 반복 문제를 동적 BOS (Beginning Of Sequence) 주입을 통해 해결했습니다. 또한, Kimi K25 모델에서 미디어 플레이스홀더 토큰 ID를 토크나이저에서 올바르게 처리하도록 수정되었습니다.

요약하자면, v0.19.1은 단순히 버그를 고치는 것을 넘어, 최신 트랜스포머 생태계(v5.5.3)와의 호환성을 확보하고, 특히 Gemma 4와 같은 첨단 모델을 프로덕션 환경에서 안정적으로 운영할 수 있도록 필수적인 패치를 제공하는 중요한 업데이트입니다.

이러한 개선 사항들은 vLLM의 범용성과 신뢰도를 한 단계 끌어올릴 것으로 기대됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

vLLM v0.19.1 패치 노트: Gemma 4 및 트랜스포머 업데이트 주요 개선 사항

요약

핵심 포인트

댓글