r/LocalLLaMA분석2026. 04. 27. 04:05

RTX 5090 에서 Qwen3.6-27B, 218k 컨텍스트로 ~80 tps 달성

요약

Qwen3.6-27B 모델이 출시된 지 며칠 만에 HuggingFace에 NVFP4 및 MTP 기능이 포함된 버전이 공개되었습니다. 이전 Qwen3.5-27B 데모에서 사용했던 동일한 레시피를 적용하면, 최신 vLLM 0.19 빌드 (vLLM 0.19.1rc1) 를 통해 단일 RTX 5090 GPU 에서 218k 토큰 컨텍스트 윈도우에서도 약 80 토크/초 (tps) 의 속도를 달성할 수 있습니다.

핵심 포인트

HuggingFace에 Qwen3.6-27B 모델의 NVFP4 및 MTP 버전이 공개됨
단일 RTX 5090 GPU 에서 218k 컨텍스트 윈도우를 처리하며 약 80 tps 성능 달성
최신 vLLM 0.19 (vLLM 0.19.1rc1) 빌드를 사용하여 구현 가능

Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19

Qwen3.6-27B 는 며칠 전 출시되었으며, HuggingFace 에서 NVFP4 와 MTP 가 적용된 버전이 이미 공개되었습니다: https://huggingface.co/sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP

이전 Qwen3.5-27B 데모에서 사용한 동일한 레시피를 따라, 최신 vLLM 0.19 빌드 (vLLM 0.19.1rc1) 를 통해 단일 RTX 5090 GPU 에서 218k 컨텍스트 윈도우에서도 약 80 토크/초 (tps) 의 속도를 달성할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

RTX 5090 에서 Qwen3.6-27B, 218k 컨텍스트로 ~80 tps 달성

요약

핵심 포인트

Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19

댓글