Triple GPU 환경에서의 Qwen 3.6 모델 벤치마크
요약
Triple GPU(GTX-1070 8GiB x 3) 환경에서 Qwen 3.6 모델들의 추론 성능을 벤치마크한 결과입니다. 다양한 양자화 방식(GGUF)에 따른 실행 시간과 성능 지표를 비교 분석하였습니다.
핵심 포인트
- GTX-1070 3개를 활용한 총 24GiB VRAM 환경에서의 테스트
- Qwen 3.6 35B MoE 모델이 27B 모델 대비 높은 성능을 보임
- 양자화 방식(MXFP4, IQ4_NL 등)에 따른 추론 속도 차이 확인
- GPU 전력 제한 설정을 통한 시스템 안정성 확보
저의 llama triple GPU 24 GiB VRAM 시스템에서 몇 가지 Qwen 3.6 모델을 실행해 달라는 요청입니다.
사양 (SPECS):
Kubuntu 26.04 OS.
AMD Ryzen 5 3600 6-core CPU.
48 GiB of DDR4 3600 Mhz RAM.
Nvidia GTX-1070 8GiB VRAM ( X 3 ) 총 24GiB VRAM.
https://github.com/ggml-org/llama.cpp/releases.
빌드 (build): 726704a16 (9204).
llama-b9204 Vulkan
GPU의 전력 제한(power limit)은 다음 명령어를 사용하여 120, 121, 122 와트(watts)로 설정되었습니다:
sudo nvidia-smi -i 0 -pl 120; sudo nvidia-smi -i 1 -pl 121; sudo nvidia-smi -i 2 -pl 122
추론 (inference) 시 성능 저하는 약 5% 정도 발생하지만, 제 파워 서플라이(power supply)는 이를 반깁니다.
벤치마크 완료 시간 (Time to complete benchmark)
GGUF 모델명 | 실제 시간 (Real Time)
Qwen3.6-27B-UD-Q4_K_XL | 3m14.304s
Qwen3.6-35B-A3B-MXFP4_MOE | 2m9.132s
Qwen3.6-35B-A3B-UD-Q4_K_S | 2m1.629s
Qwen3.6-35B-A3B-UD-IQ4_NL | 1m54.905s
Qwen3.6-27B-UD-Q5_K_XL | 3m36.168s
Qwen 3.6 모델들입니다. 모든 모델의 크기는 16.39에서 20.2 GiB 사이입니다.
모델 파라미터 (model params) | pp512 | tg128
qwen 35 27B Q4_K - Medium | 26.90 | 62.32 | 8.14
qwen 35moe 35B.A3B MXFP4 MoE | 34.66 | 106.29 | 40.24
qwen 35moe 35B.A3B Q4_K - Small | 34.66 | 101.41 | 45.30
qwen 35moe 35B.A3B IQ4_NL - 4.5 bpw | 35.51 | 104.32 | 41.70
qwen 35 27B Q5_K - Medium | 27.32 | 57.61 | 7.29
MoE 모델 규칙 (MoE models rules).
제출자: /u/tabletuser_blogspot
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기