본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 06. 04:37

vLLM 이 Qwen 3.5+ 에 대해 TurboQuant 수정을 통합했습니다

요약

vLLM 프로젝트는 Qwen 3.5+ 모델에 대한 TurboQuant 최적화 수정을 통합하여 성능을 개선했습니다. 이 업데이트를 통해 사용자들은 `turboquant_4bit_nc`와 같은 새로운 인자를 사용하여 메모리 효율성을 높이고, 다양한 양자화 옵션을 활용할 수 있게 되었습니다. 또한, Mamba 레이어 관련 오류 수정 및 배치 토큰 처리 로직 개선을 통해 안정성과 기능을 확장했습니다.

핵심 포인트

  • vLLM이 Qwen 3.5+ 모델에 TurboQuant 최적화를 통합하여 메모리 효율성을 높였습니다.
  • 사용자들은 `--kv-cache-dtype turboquant_4bit_nc`와 같은 새로운 인자를 사용하여 다양한 양자화 옵션을 적용할 수 있습니다.
  • Mamba 레이어 관련 오류가 수정되었으며, 안정적인 테스트 환경을 제공합니다.
  • 배치 토큰 처리 시 `max-num-batched-tokens`를 조정하여 성능 문제를 해결했습니다.

이전에 Mamba 레이어 때문에 'Not Implemented' 오류가 발생했습니다. 이제 테스트해 보겠습니다!

https://github.com/vllm-project/vllm/pull/39931

수정: Qwen 3.6 과도 작동합니다. 27B 로 테스트했습니다.

다음 인자를 사용하여 사용할 수 있습니다:

--kv-cache-dtype turboquant_4bit_nc

기타 사용 가능한 옵션;

  • turboquant_k8v4
  • turboquant_4bit_nc
  • turboquant_k3v4_nc
  • turboquant_3bit_nc

--enable-chunked-prefill 로 실행할 때 mamba align 에 대해 불만을 제기했습니다. 오류가 주는 값보다 더 많은 배치 토큰을 가져야 합니다. 저는 이를 수정하기 위해 4096 을 사용했습니다. --max-num-batched-tokens 4096

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0