RTX 5090 + 3090 Ti 환경에서 Qwen3.6-27B Q8 사용 시 100+ t/s 달성 — tensor split 모드 전환으로
요약
RTX 5090과 RTX 3090 Ti 조합에서 llama.cpp의 tensor split 모드를 활용해 Qwen3.6-27B 모델의 추론 속도를 100 t/s 이상으로 끌어올린 설정법을 공유합니다. 레이어 분할 방식 대신 텐서 분할을 사용하여 두 GPU의 연산 효율을 극대화했습니다.
핵심 포인트
- tensor split 모드 전환으로 70+ t/s에서 100+ t/s로 성능 향상
- GPU 성능 차이를 고려한 70/30 비율의 텐서 분할 적용
- 멀티 GPU 환경에서 연산 효율을 높이는 llama.cpp 최적화 설정
- 고성능 추론 시 두 GPU의 높은 전력 소모 주의 필요
저에게 아주 잘 작동하고 있는 설정을 공유하고자 합니다. 두 개의 GPU (RTX 5090 + RTX 3090 Ti)에서 Qwen3.6-27B를 Q8_0로 실행하여 약 100 t/s를 얻고 있습니다.
가장 큰 도약은 --split-mode를 tensor로 전환하면서 이루어졌습니다. 그 전에는 레이어 분할 (layer split) 방식으로 70+ t/s 정도에 머물러 있었습니다. Tensor split은 전체 레이어를 번갈아 가며 넘겨주는 대신, 동일한 텐서 (tensors)에 대해 두 카드를 모두 바쁘게 유지하며, 이와 같이 빠르고 느린 카드의 조합에서는 실제로 큰 차이를 만들어냈습니다. 상대적인 연산 능력에 맞춰 70/30 텐서 분할 (5090에 비중을 둠)을 적용했습니다.
주의 사항: 이 장치는 부하가 걸리면 제대로 된 공간 히터(space heater)로 변합니다. 디코딩 (decoding) 동안 두 GPU가 내내 강력하게 전력을 소모하며, 카드에서만 750W+를 끌어다 씁.
처리량 (Throughput)은 프롬프트 (prompt)에 따라서도 달라지며, 일부 경우에는 최대 130 t/s에 도달하기도 합니다.
전체 llama.cpp 서버 명령어:
llama-server \ -m Qwen3.6-27B-Q8_0.gguf \ -fa 1 \ --n-gpu-layers 99 \ --tensor-split 70,30 \ --fit off \ --main-gpu 0 \ --split-mode tensor \ --no-mmap \ --mlock \ --cpu-range 0-23 \ --cpu-range-batch 0-7 \ --ctx-size 196608 \ --parallel 2 \ --kv-unified \ --jinja --no-warmup --threads 24 --numa isolate \ --batch-size 2048 --ubatch-size 2048 --threads-batch 8 \ --chat-template-kwargs '{"preserve_thinking": false}' \ -cms 24000 \ -ctxcp 5 \ --alias qwen.3.6-27b.q8 \ --spec-type draft-mtp --spec-draft-n-max 3 \ --reasoning-budget 12288 \ --reasoning-budget-message "Wrap up your reasoning and give the final answer." \ --host 0.0.0.0 --port 8080
설정에 대해 궁금한 점이 있다면 기꺼이 답변해 드리겠습니다.
추신: 텐서 분할 (tensor splitting)이 어떻게 작동하는지 이해하고 싶다면, 여기 llama.cpp 문서에서 더 많은 정보를 찾을 수 있습니다: https://github.com/ggml-org/llama.cpp/blob/master/docs/multi-gpu.md
submitted by /u/Shoddy_Bed3240
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기