본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 04. 27. 04:05

RTX 5090 에서 Qwen3.6-27B, 218k 컨텍스트로 ~80 tps 달성

요약

Qwen3.6-27B 모델이 출시된 지 며칠 만에 HuggingFace에 NVFP4 및 MTP 기능이 포함된 버전이 공개되었습니다. 이전 Qwen3.5-27B 데모에서 사용했던 동일한 레시피를 적용하면, 최신 vLLM 0.19 빌드 (vLLM 0.19.1rc1) 를 통해 단일 RTX 5090 GPU 에서 218k 토큰 컨텍스트 윈도우에서도 약 80 토크/초 (tps) 의 속도를 달성할 수 있습니다.

핵심 포인트

  • HuggingFace에 Qwen3.6-27B 모델의 NVFP4 및 MTP 버전이 공개됨
  • 단일 RTX 5090 GPU 에서 218k 컨텍스트 윈도우를 처리하며 약 80 tps 성능 달성
  • 최신 vLLM 0.19 (vLLM 0.19.1rc1) 빌드를 사용하여 구현 가능

Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19

Qwen3.6-27B 는 며칠 전 출시되었으며, HuggingFace 에서 NVFP4 와 MTP 가 적용된 버전이 이미 공개되었습니다: https://huggingface.co/sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP

이전 Qwen3.5-27B 데모에서 사용한 동일한 레시피를 따라, 최신 vLLM 0.19 빌드 (vLLM 0.19.1rc1) 를 통해 단일 RTX 5090 GPU 에서 218k 컨텍스트 윈도우에서도 약 80 토크/초 (tps) 의 속도를 달성할 수 있습니다.

관련 데모: https://www.reddit.com/r/LocalLLaMA/comments/1sr8gyf/qwen3527b_on_rtx_5090_served_via_vllm_77_tps/

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0