Reddit요약2026. 05. 03. 08:29

vLLM 0.19 로 RTX 5090 에서 256k 컨텍스트 길이로 Qwen3.6-27B-INT4 를 초당 100 토큰 처리

요약

본 기사는 vLLM 0.19과 RTX 5090 환경에서 Qwen3.6-27B 모델을 사용하여 256k의 긴 컨텍스트 길이에서도 초당 100 토큰 이상의 높은 처리량(tps)을 달성한 성능 최적화 결과를 공유합니다. 특히 MTP 지원, KLD 양자화 사용 및 vLLM의 다양한 고급 기능을 활용하여 대규모 모델과 긴 컨텍스트를 효율적으로 구동하는 방법을 보여줍니다.

핵심 포인트

vLLM 0.19을 사용하여 Qwen3.6-27B와 같은 대형 언어 모델(LLM)의 성능을 최적화할 수 있습니다.
RTX 5090과 256k 컨텍스트 길이 환경에서 초당 100 tps 이상의 높은 추론 속도를 달성했습니다.
MTP (Multi-Token Prediction), KLD 양자화, 그리고 vLLM의 고급 파라미터 설정(예: `--attention-backend flashinfer`, `--kv-cache-dtype fp8_e4m3`)이 고성능에 핵심적인 역할을 합니다.
긴 컨텍스트 윈도우를 가진 모델을 효율적으로 구동하기 위해 vLLM의 다양한 최적화 기능을 활용하는 것이 중요합니다.

커뮤니티 덕분에 Qwen3.6-27B 의 속도가 계속 개선되고 있습니다. 아래의 내용은 어제의 제 레시피를 개선하여 100+ tps (TG) 의 놀라운 성능을 달성했습니다.

모델: https://huggingface.co/Lorbus/Qwen3.6-27B-int4-AutoRound

MTP 지원
KLD 가 괜찮음 (연결된 게시물에 따르면 NVFP4 보다 훨씬 좋음) 으로, 가장 작은 모델의 이점을 가짐
더 작은 모델 크기를 통해 네이티브 256k 컨텍스트 윈도우 전체 활용 가능

초당 토큰 수 (TG): 105-108 tps

Lorbus 양자화를 발견하게 도와준 이 게시물에 특별한 감사의 말씀을 드립니다: https://www.reddit.com/r/Olares/comments/1svg2ad/qwen3627b_at_85100_ts_on_a_24gb_rtx_5090_laptop/

참고로 제 설정에서는 TQ 를 조작하지 않았습니다. 모델에 내장된 최대 컨텍스트 길이를 이미 달성할 수 있었기 때문입니다.

vLLM 실행 구성:

args=(
vllm serve "/root/autodl-tmp/llm-models"
--max-model-len "262144"
--gpu-memory-utilization "0.93"
--attention-backend flashinfer
--performance-mode interactivity
--language-model-only
--kv-cache-dtype "fp8_e4m3"
--max-num-seqs "2"
--skip-mm-profiling
--quantization auto_round
--reasoning-parser qwen3
--enable-auto-tool-choice
--enable-prefix-caching
--enable-chunked-prefill
--tool-call-parser qwen3_coder
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'
--host "0.0.0.0"
--port "6006"
)

AI 자동 생성 콘텐츠

원문 바로가기

vLLM 0.19 로 RTX 5090 에서 256k 컨텍스트 길이로 Qwen3.6-27B-INT4 를 초당 100 토큰 처리

요약

핵심 포인트

댓글