P2P를 활용한 1,800달러 GPU 비용으로 Qwen/Qwen3.6-27b-FP8 실행 (262K 컨텍스트 및 BF16 KV 캐시 적용

요약

중고 GPU 4개를 P2P로 연결하여 약 1,800달러의 저렴한 비용으로 Qwen/Qwen3.6-27b-FP8 모델을 구동하는 방법을 소개합니다. vLLM을 활용해 262K의 긴 컨텍스트와 BF16 KV 캐시를 적용한 추론 최적화 설정 및 벤치마크 결과를 공유합니다.

핵심 포인트

중고 5060 ti 16GB 4개를 활용한 가성비 높은 추론 환경 구축
vLLM을 통한 Tensor Parallelism 및 P2P 통신 최적화 설정
262K 컨텍스트 길이를 지원하는 고성능 추론 구성 방법
FP8 양자화 및 BF16 KV 캐시를 통한 메모리 효율 극대화

여러분, 1,700달러의 GPU 비용으로 추론(inference) 전용 단일 사용자 사례에서 무엇이 가능한지 공유하고 싶습니다.

설정: P2P를 사용하는 4x 5060 ti (16GB)
만약 당신이 미국에 있고 Facebook Marketplace나 Slickdeals 같은 곳을 주시한다면, 중고 5060 ti 16GB 모델을 425~475달러에 찾을 수 있습니다.
매우 중요한 주의사항은, 이러한 유형의 구성은 오직 엄격하게 추론(inference)에만 관심이 있는 경우에만 실행 가능합니다.

사용된 VLLM 명령어:
export VLLM_SLEEP_WHEN_IDLE=1 export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1 export VLLM_WORKER_MULTIPROC_METHOD=spawn export SAFETENSORS_FAST_GPU=1 export NCCL_P2P_DISABLE=0 export NCCL_CUMEM_ENABLE=1 export CUDA_DEVICE_ORDER=PCI_BUS_ID export TORCH_FLOAT32_MATMUL_PRECISION=high export PYTORCH_ALLOC_CONF=expandable_segments:True # 제외됨: VLLM_USE_FLASHINFER_MOE_FP8 (dense 모델), VLLM_TEST_FORCE_FP8_MARLIN (네이티브 FP8 우선 테스트) vllm serve /data/models/Qwen/Qwen3.6-27B-FP8 \ --host 0.0.0.0 --port 8080 \ --tensor-parallel-size 4 \ --performance-mode interactivity \ --trust-remote-code \ --language-model-only \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser qwen3 \ --max-model-len 262144 \ --kv-cache-dtype bfloat16 \ --max-num-seqs 4 \ --gpu-memory-utilization 0.92 \ --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":3}' \ --compilation-config '{"max_cudagraph_capture_size":16,"mode":"VLLM_COMPILE"}' \ --async-scheduling \ --attention-backend flashinfer \ --enable-prefix-caching

벤치마크 명령어:
vllm bench serve --backend vllm --base-url http://localhost:8080 --endpoint /v1/completions --model /data/models/Qwen/Qwen3.6-27B-FP8 --dataset-name random --random-input-len 4096 --random-output-len 1024 --num-prompts 40 --max-concurrency 1 --num-warmups 5 --ignore-eos --seed 1234 --percentile-metrics ttft,tpot,itl,e2el --save-result --result-filename qwen36_c1_4k.json

============ 서빙 벤치마크 결과 (Serving Benchmark Result) ============
성공한 요청 (Successful requests): 40
실패한 요청 (Failed requests): 0
최대 요청 동시성 (Maximum request concurrency): 1
벤치마크 지속 시간 (Benchmark duration (s)): 735.75
총 입력 토큰 (Total input tokens): 163840
총 생성 토큰 (Total generated tokens): 40960
요청 처리량 (Request throughput (req/s)): 0.05
출력 토큰 처리량 (Output token throughput (tok/s)): 55.67
최대 출력 토큰 처리량 (Peak output token throughput (tok/s)): 25.00
최대 동시 요청 (Peak concurrent requests): 2.00
총 토큰 처리량 (Total token throughput (tok/s)): 278.36
---------------첫 번째 토큰까지의 시간 (Time to First Token)----------------
평균 TTFT (Mean TTFT (ms)): 4226.91
중앙값 TTFT (Median TTFT (ms)): 4315.47
P99 TTFT (P99 TTFT (ms)): 4320.32
-----출력 토큰당 시간 (첫 번째 토큰 제외) (Time per Output Token (excl. 1st token))------
평균 TPOT (Mean TPOT (ms)): 13.85
중앙값 TPOT (Median TPOT (ms)): 13.44
P99 TPOT (P99 TPOT (ms)): 25.61
---------------토큰 간 지연 시간 (Inter-token Latency)----------------
평균 ITL (Mean ITL (ms)): 40.91
중앙값 ITL (Median ITL (ms)): 40.84
P99 ITL (P99 ITL (ms)): 41.59
----------------종단 간 지연 시간 (End-to-end Latency)----------------
평균 E2EL (Mean E2EL (ms)): 18393.49
중앙값 E2EL (Median E2EL (ms)): 17991.18
P99 E2EL (P99 E2EL (ms)): 30508.70
---------------추측적 디코딩 (Speculative Decoding)---------------
수락률 (Acceptance rate (%)): 65.25
수락 길이 (Acceptance length): 2.96
초안 (Drafts): 13853
초안 토큰 (Draft tokens): 41559
수락된 토큰 (Accepted tokens): 27116
위치별 수락률 (Per-position acceptance (%)):
위치 0 (Position 0): 78.29%
위치 1 (Position 1): 64.14%
위치 2 (Position 2): 53.31%

참고: --max-num-seqs를 4로 설정했다는 사실을 잊었지만, 동시성(concurrency) 1로 벤치마크를 수행했습니다.
제출자: /u/joorklee
[링크] [댓글]

AI 자동 생성 콘텐츠

원문 바로가기