Reddit요약2026. 05. 05. 14:40

Qwen3.6 27B 모델과 dual RTX 5060 Ti 16GB 환경에서 vLLM 실행: ~60 tok/s 성능 및 204k 컨텍스트 지원

요약

본 기사는 로컬 환경에서 Qwen3.6 27B 모델을 dual RTX 5060 Ti 16GB GPU 조합과 vLLM 프레임워크를 사용하여 실행한 성능 테스트 결과를 공유합니다. 이 설정은 최대 204k의 방대한 컨텍스트 길이를 지원하며, 다양한 컨텍스트 길이(8K, 32K)에서 안정적으로 50~66 tok/s의 높은 추론 속도를 달성했습니다. 테스트 결과는 vLLM과 최신 CUDA/Torch 버전을 활용하여 대규모 컨텍스트 처리 능력을 입증하며, 특히 메모리 관리 및 다양한 파라미터 설정에 대한 실질적인 가이드를 제공합니다.

핵심 포인트

dual RTX 5060 Ti (총 32GB VRAM) 환경에서 Qwen3.6 27B 모델 구동 가능성 입증.
vLLM을 사용하여 최대 204k 컨텍스트 길이를 성공적으로 지원하며, 높은 메모리 효율성을 보임.
8K~32K 컨텍스트 길이에서 안정적인 50-66 tok/s의 추론 속도를 달성함.
대규모 컨텍스트 처리를 위해 `gpu_memory_utilization` 및 `--max-model-len` 같은 vLLM 파라미터 설정이 중요함.
최적의 성능을 위해서는 최신 CUDA, Torch nightly 버전과 vLLM 버전을 사용하는 것이 유리함.

저는 Qwen3.6 27B 모델을 매우 비표준의 로컬 환경에서 테스트 중이며, 새로운 16GB Blackwell 카드 사용자를 위한 데이터가 유용할 수 있다고 생각했습니다.

하드웨어:

2x RTX 5060 Ti 16GB
총 VRAM: 32GB
Proxmox LXC
16 vCPU
~60GB RAM
CUDA 13 / Torch 2.11 nightly
vLLM nightly: 0.19.2rc1.dev
모델: sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP

vLLM 실행 명령어:
vllm serve sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP
--served-model-name qwen36-nvfp4-mtp
--tensor-parallel-size 2
--max-model-len 204800
--max-num-batched-tokens 8192
--max-num-seqs 1
--gpu-memory-utilization 0.95
--kv-cache-dtype fp8
--quantization modelopt
--speculative-config '{"method":"mtp","num_speculative_tokens":3}'
--reasoning-parser qwen3
--language-model-only
--generation-config vllm
--disable-custom-all-reduce
--attention-backend TRITON_ATTN

현재까지의 성능:

8K 컨텍스트, MTP n=1: ~50–52 tok/s
8K 컨텍스트, MTP n=3: ~62–66 tok/s
32K 컨텍스트: ~59–66 tok/s
204800 컨텍스트는 시작 및 작동하지만 매우 긴장감 있음
204k 컨텍스트 시 대기 VRAM: GPU 당 ~14.45GiB
168k 토큰 프리필링 후: GPU 당 ~15.65GiB
168k 토큰 니들/리트리벌 스모크 테스트는 ~256s 내에 통과됨
204800 윈도우를 초과하는 프롬프트+출력을 올바르게 거부함

생각 모드도 작동하지만, 충분한 출력 예산을 제공해야 합니다. 낮은 max_tokens 값에서는 Qwen이 전체 제한을 추론에 사용하며 최종 콘텐츠를 반환하지 않습니다. 작은 프롬프트에는 ~1024+ 가 적당하고, 실제 추론 작업에는 4096–8192 가 안전합니다.

주의사항:

2x16GB 환경에서 204k 컨텍스트는 가장자리입니다.
gpu_memory_utilization=0.94 는 KV 할당을 실패했습니다; 0.95 가 작동했습니다.
컴파일/오토튜닝으로 인해 시작이 수 분 소요됩니다.
로그는 FlashInfer 오토튜너가 시작 중 OOM fallback 을 보이지만 서버는 여전히 건강합니다.
텍스트 경로에는 TRITON_ATTN 이 더 잘되었습니다.
이는 고 컨커런시 설정이 아닙니다: max_num_seqs=1.

전반적으로: 올바른 체크포인트/러닝타임 조합을 사용하면 dual 5060 Ti 16GB 는 Qwen3.6 27B 에 대해 놀랍게도 사용 가능합니다. 방대한 공간은 아니지만 작동합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Qwen3.6 27B 모델과 dual RTX 5060 Ti 16GB 환경에서 vLLM 실행: ~60 tok/s 성능 및 204k 컨텍스트 지원

요약

핵심 포인트

댓글