본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 17. 08:16

Triple GPU 환경에서의 Qwen 3.6 모델 벤치마크

요약

Triple GPU(GTX-1070 8GiB x 3) 환경에서 Qwen 3.6 모델들의 추론 성능을 벤치마크한 결과입니다. 다양한 양자화 방식(GGUF)에 따른 실행 시간과 성능 지표를 비교 분석하였습니다.

핵심 포인트

  • GTX-1070 3개를 활용한 총 24GiB VRAM 환경에서의 테스트
  • Qwen 3.6 35B MoE 모델이 27B 모델 대비 높은 성능을 보임
  • 양자화 방식(MXFP4, IQ4_NL 등)에 따른 추론 속도 차이 확인
  • GPU 전력 제한 설정을 통한 시스템 안정성 확보

저의 llama triple GPU 24 GiB VRAM 시스템에서 몇 가지 Qwen 3.6 모델을 실행해 달라는 요청입니다.

사양 (SPECS):
Kubuntu 26.04 OS.
AMD Ryzen 5 3600 6-core CPU.
48 GiB of DDR4 3600 Mhz RAM.
Nvidia GTX-1070 8GiB VRAM ( X 3 ) 총 24GiB VRAM.
https://github.com/ggml-org/llama.cpp/releases.
빌드 (build): 726704a16 (9204).
llama-b9204 Vulkan

GPU의 전력 제한(power limit)은 다음 명령어를 사용하여 120, 121, 122 와트(watts)로 설정되었습니다:
sudo nvidia-smi -i 0 -pl 120; sudo nvidia-smi -i 1 -pl 121; sudo nvidia-smi -i 2 -pl 122
추론 (inference) 시 성능 저하는 약 5% 정도 발생하지만, 제 파워 서플라이(power supply)는 이를 반깁니다.

벤치마크 완료 시간 (Time to complete benchmark)

GGUF 모델명 | 실제 시간 (Real Time)

Qwen3.6-27B-UD-Q4_K_XL | 3m14.304s
Qwen3.6-35B-A3B-MXFP4_MOE | 2m9.132s
Qwen3.6-35B-A3B-UD-Q4_K_S | 2m1.629s
Qwen3.6-35B-A3B-UD-IQ4_NL | 1m54.905s
Qwen3.6-27B-UD-Q5_K_XL | 3m36.168s

Qwen 3.6 모델들입니다. 모든 모델의 크기는 16.39에서 20.2 GiB 사이입니다.

모델 파라미터 (model params) | pp512 | tg128

qwen 35 27B Q4_K - Medium | 26.90 | 62.32 | 8.14
qwen 35moe 35B.A3B MXFP4 MoE | 34.66 | 106.29 | 40.24
qwen 35moe 35B.A3B Q4_K - Small | 34.66 | 101.41 | 45.30
qwen 35moe 35B.A3B IQ4_NL - 4.5 bpw | 35.51 | 104.32 | 41.70
qwen 35 27B Q5_K - Medium | 27.32 | 57.61 | 7.29

MoE 모델 규칙 (MoE models rules).
제출자: /u/tabletuser_blogspot
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0