본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 05. 19:04

Qwen3.6 27B FP8 는 RTX 5000 PRO 48GB 에서 20 만 토큰의 BF16 KV 캐시와 함께 80 TPS 로 실행됨

요약

본 기사는 Qwen3.6 27B 모델을 RTX 5000 PRO 48GB GPU 환경에서 FP8 정밀도와 BF16 KV 캐시를 사용하여 구동하는 방법을 설명합니다. 이 설정은 양자화 오류 누적 문제를 최소화하고, vLLM과 최신 CUDA/FlashInfer 백엔드를 활용하여 높은 성능(예상 60-90 TPS)을 달성할 수 있게 합니다. 이러한 고사양 하드웨어와 소프트웨어 스택의 조합은 대규모 언어 모델(LLM)을 효율적으로 운영하는 '최종 레시피'를 제시하며, 특히 긴 컨텍스트 길이와 높은 처리량을 요구하는 엔지니어링 작업에 최적화되어 있습니다.

핵심 포인트

  • Qwen3.6 27B FP8 모델은 Blackwell 가속이 가능한 FP8 정밀도를 제공하여 양자화 오류 누적 문제를 해결합니다.
  • RTX 5000 PRO와 같은 고용량 VRAM GPU(48GB)는 대규모 LLM 구동에 적합하며, BF16 KV 캐시를 사용하여 안정성을 높입니다.
  • vLLM과 최신 CUDA/FlashInfer 백엔드를 활용한 상세한 명령어 설정은 높은 처리량(TPS)을 달성하는 핵심 기술 스택입니다.
  • 이 '최종 레시피'는 LLM의 성능, 메모리 효율성, 그리고 정확도를 모두 고려하여 설계된 종합적인 운영 가이드라인을 제시합니다.

안녕하세요, 모두,

24GB 카드에 27B 를 밀어넣고 이를 수행하기 위해 관련된 모든 양자화 트릭에 대한 많은 게시물을 보았습니다. 모든 작업은 놀라운 것이지만, 결국 양자화된 모델과 양자화된 KV 는 양자화되지 않은 것보다 오류가 더 빠르게 누적되어, 이는 에이전트 코딩에 눈에 띄는 영향을 미칩니다.

48GB GPU 는 대부분의 양자화 나쁜 것을 피하기 위해 충분히 VRAM 을 제공하며, Blackwell 가속화된 FP8 과 같은 genuinely 좋은 옵션이 있다는 것을 알게 되었습니다. 다행히 Qwen 은 27B 모델의 자체 FP8 버전을 출시했습니다.

진지하게 말하면: 저는 우리가 "10 만 달러에 무엇을 사야 할까?"라는 모든 게시물의 답을 찾을 수 있을 것이라 생각합니다. Pro5k, 64GB RAM, 적절한 CPU/mobo, 그리고 Blackwell 하드웨어 가속과 양자화되지 않은 KV 를 사용하여 FP8 양자의 27B 를 champ 처럼 실행할 것입니다. 그것은 조용하고, 충분히 차갑고, 작고, 빠르며... 정말 훌륭합니다.

최종 레시피:

  • vLLM 0.20.1
  • CUDA 12.9
  • Qwen 의 공식 Qwen3.6 27B FP8 양자화 이 Qwen3.6 의 모든 기능을 제공하며, 다중 모달리티, MTP 등을 포함합니다.
  • 20 만 토큰의 BF16 KV 캐시 @ 1.09x 병행
  • 실제 벤치마크 숫자는 추후 업데이트 - 그들은 현재 실행 중입니다.

이 설정들:
export VLLM_USE_FLASHINFER_MOE_FP8=1
export VLLM_TEST_FORCE_FP8_MARLIN=1
export VLLM_SLEEP_WHEN_IDLE=1
export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1
export VLLM_LOG_STATS_INTERVAL=2
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export SAFETENSORS_FAST_GPU=1
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export TORCH_FLOAT32_MATMUL_PRECISION=high
export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8 \
  --host 0.0.0.0 --port 8080 \
  --performance-mode interactivity \
  --trust-remote-code \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --mm-encoder-tp-mode data \
  --mm-processor-cache-type shm \
  --gpu-memory-utilization 0.975 \
  --speculative-config '{"method":"mtp","num_speculative_tokens":2}' \
  --compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}' \
  --async-scheduling \
  --attention-backend flashinfer \
  --max-model-len 196608 \
  --kv-cache-dtype bfloat16 \
  --enable-prefix-caching

성능

저는 현재 실제 벤치마크를 실행 중이며, 이 게시물을 나중에 업데이트할 것입니다. 일반적으로: MTP=2 로 코드를 작성하면 60-90 TPS 를 얻으며, 이는 일상 사용을 위해 완벽하게 수용 가능한 숫자입니다. 또한, FP8 을 실행하고 KV 는 양자화되지 않았으므로 초기 컴팩션, 끝없는 루프 등을 포함하지 않고 긴 Claude 세션의 혜택을 받습니다. 그것은 정말로 최소한의 양자화입니다.

AI 가 생성된 텍스트가 여기에 따라옵니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0