r/LocalLLaMA분석2026. 05. 06. 04:37

vLLM 이 Qwen 3.5+ 에 대해 TurboQuant 수정을 통합했습니다

요약

vLLM 프로젝트는 Qwen 3.5+ 모델에 대한 TurboQuant 최적화 수정을 통합하여 성능을 개선했습니다. 이 업데이트를 통해 사용자들은 `turboquant_4bit_nc`와 같은 새로운 인자를 사용하여 메모리 효율성을 높이고, 다양한 양자화 옵션을 활용할 수 있게 되었습니다. 또한, Mamba 레이어 관련 오류 수정 및 배치 토큰 처리 로직 개선을 통해 안정성과 기능을 확장했습니다.

핵심 포인트

vLLM이 Qwen 3.5+ 모델에 TurboQuant 최적화를 통합하여 메모리 효율성을 높였습니다.
사용자들은 `--kv-cache-dtype turboquant_4bit_nc`와 같은 새로운 인자를 사용하여 다양한 양자화 옵션을 적용할 수 있습니다.
Mamba 레이어 관련 오류가 수정되었으며, 안정적인 테스트 환경을 제공합니다.
배치 토큰 처리 시 `max-num-batched-tokens`를 조정하여 성능 문제를 해결했습니다.

이전에 Mamba 레이어 때문에 'Not Implemented' 오류가 발생했습니다. 이제 테스트해 보겠습니다!

https://github.com/vllm-project/vllm/pull/39931

수정: Qwen 3.6 과도 작동합니다. 27B 로 테스트했습니다.

다음 인자를 사용하여 사용할 수 있습니다:

--kv-cache-dtype turboquant_4bit_nc

기타 사용 가능한 옵션;

turboquant_k8v4
turboquant_4bit_nc
turboquant_k3v4_nc
turboquant_3bit_nc

--enable-chunked-prefill 로 실행할 때 mamba align 에 대해 불만을 제기했습니다. 오류가 주는 값보다 더 많은 배치 토큰을 가져야 합니다. 저는 이를 수정하기 위해 4096 을 사용했습니다. --max-num-batched-tokens 4096

AI 자동 생성 콘텐츠

원문 바로가기

vLLM 이 Qwen 3.5+ 에 대해 TurboQuant 수정을 통합했습니다

요약

핵심 포인트

댓글