Triple GPU 환경에서의 Qwen 3.6 모델 벤치마크

저의 llama triple GPU 24 GiB VRAM 시스템에서 몇 가지 Qwen 3.6 모델을 실행해 달라는 요청입니다.

사양 (SPECS):
Kubuntu 26.04 OS.
AMD Ryzen 5 3600 6-core CPU.
48 GiB of DDR4 3600 Mhz RAM.
Nvidia GTX-1070 8GiB VRAM ( X 3 ) 총 24GiB VRAM.
https://github.com/ggml-org/llama.cpp/releases.
빌드 (build): 726704a16 (9204).
llama-b9204 Vulkan

GPU의 전력 제한(power limit)은 다음 명령어를 사용하여 120, 121, 122 와트(watts)로 설정되었습니다:
sudo nvidia-smi -i 0 -pl 120; sudo nvidia-smi -i 1 -pl 121; sudo nvidia-smi -i 2 -pl 122
추론 (inference) 시 성능 저하는 약 5% 정도 발생하지만, 제 파워 서플라이(power supply)는 이를 반깁니다.

벤치마크 완료 시간 (Time to complete benchmark)

GGUF 모델명 | 실제 시간 (Real Time)

Qwen 3.6 모델들입니다. 모든 모델의 크기는 16.39에서 20.2 GiB 사이입니다.

모델 파라미터 (model params) | pp512 | tg128

qwen 35 27B Q4_K - Medium | 26.90 | 62.32 | 8.14
qwen 35moe 35B.A3B MXFP4 MoE | 34.66 | 106.29 | 40.24
qwen 35moe 35B.A3B Q4_K - Small | 34.66 | 101.41 | 45.30
qwen 35moe 35B.A3B IQ4_NL - 4.5 bpw | 35.51 | 104.32 | 41.70
qwen 35 27B Q5_K - Medium | 27.32 | 57.61 | 7.29

MoE 모델 규칙 (MoE models rules).
제출자: /u/tabletuser_blogspot
[link] [comments]

Insights

Triple GPU 환경에서의 Qwen 3.6 모델 벤치마크

요약

핵심 포인트

댓글

Raspberry Pi에서 AI 에이전트를 실행하고 공인 IP 없이 어디서나 접속하기

맞춤형 SLM vs LLM: B2B SaaS를 위한 AI 기술 의사결정 프레임워크

Amazon은 3세대 에이전트를 보유하고 있지만, Mercado Libre 판매자들은 여전히 스페인어로 수동 답변을 합니다

AI 검색 가시성을 위한 프롬프트 벤치마크 구축 방법

Raspberry Pi에서 AI 에이전트를 실행하고 공인 IP 없이 어디서나 접속하기

맞춤형 SLM vs LLM: B2B SaaS를 위한 AI 기술 의사결정 프레임워크

Amazon은 3세대 에이전트를 보유하고 있지만, Mercado Libre 판매자들은 여전히 스페인어로 수동 답변을 합니다

AI 검색 가시성을 위한 프롬프트 벤치마크 구축 방법