vLLM, nightly 버전에 Qwen3+를 위한 새로운 스트리밍 파서(streaming parser) 추가
요약
vLLM nightly 버전에 Qwen3+ 모델을 위한 새로운 스트리밍 파서가 추가되었습니다. 이를 통해 Qwen3.6-27b 모델의 대화 중단 현상과 스트리밍 도구 호출 실패 문제를 해결하여 에이전트 워크플로우의 안정성을 높였습니다.
핵심 포인트
- Qwen3.6-27b 모델의 대화 중단 문제 해결
- 스트리밍 도구 호출(tool calls) 실패 오류 수정
- 에이전트 워크플로우의 안정성 및 신뢰도 향상
- vLLM nightly 버전에 새로운 스트리밍 파서 적용
새로운 파서(parser)는 많은 사용자들이 겪고 있던 Qwen3.6-27b 모델이 대화 중간에 멈추는 문제와, 청크 경계(chunk boundaries)로 인해 스트리밍 도구 호출(streaming tool calls)이 실패하는 문제를 해결한 것으로 알려졌습니다.
대화 중간에 멈추는 현상은 에이전트 워크플로우(agentic workflows)에 모델을 사용하려 할 때 특히 짜증스러운 부분입니다. 오늘 저녁 진행한 제한적인 테스트에서는 더 이상 해당 현상이 발생하지 않는 것을 확인했으며, 이 문제가 완전히 해결되었기를 바랍니다!
submitted by /u/rmhubbert
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기