Triple GPU 환경에서의 Qwen 3.6 모델 벤치마크

저의 llama triple GPU 24 GiB VRAM 시스템에서 몇 가지 Qwen 3.6 모델을 실행해 달라는 요청입니다.

사양 (SPECS):
Kubuntu 26.04 OS.
AMD Ryzen 5 3600 6-core CPU.
48 GiB of DDR4 3600 Mhz RAM.
Nvidia GTX-1070 8GiB VRAM ( X 3 ) 총 24GiB VRAM.
https://github.com/ggml-org/llama.cpp/releases.
빌드 (build): 726704a16 (9204).
llama-b9204 Vulkan

GPU의 전력 제한(power limit)은 다음 명령어를 사용하여 120, 121, 122 와트(watts)로 설정되었습니다:
sudo nvidia-smi -i 0 -pl 120; sudo nvidia-smi -i 1 -pl 121; sudo nvidia-smi -i 2 -pl 122
추론 (inference) 시 성능 저하는 약 5% 정도 발생하지만, 제 파워 서플라이(power supply)는 이를 반깁니다.

벤치마크 완료 시간 (Time to complete benchmark)

GGUF 모델명 | 실제 시간 (Real Time)

Qwen 3.6 모델들입니다. 모든 모델의 크기는 16.39에서 20.2 GiB 사이입니다.

모델 파라미터 (model params) | pp512 | tg128

qwen 35 27B Q4_K - Medium | 26.90 | 62.32 | 8.14
qwen 35moe 35B.A3B MXFP4 MoE | 34.66 | 106.29 | 40.24
qwen 35moe 35B.A3B Q4_K - Small | 34.66 | 101.41 | 45.30
qwen 35moe 35B.A3B IQ4_NL - 4.5 bpw | 35.51 | 104.32 | 41.70
qwen 35 27B Q5_K - Medium | 27.32 | 57.61 | 7.29

MoE 모델 규칙 (MoE models rules).
제출자: /u/tabletuser_blogspot
[link] [comments]

Insights

Triple GPU 환경에서의 Qwen 3.6 모델 벤치마크

요약

핵심 포인트

댓글

현재 GigaDevice(兆易创新)는 고평가 상태인가?

독일 7월 제조업 활동 성장; 수출 수요 강세로 PMI 52.2로 상승

Flint - AI 시대를 위한 시각화 언어

2026년 최고의 Suno 프롬프트 생성기 비교

현재 GigaDevice(兆易创新)는 고평가 상태인가?

독일 7월 제조업 활동 성장; 수출 수요 강세로 PMI 52.2로 상승

Flint - AI 시대를 위한 시각화 언어

2026년 최고의 Suno 프롬프트 생성기 비교