본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 04:53

Triple GPU 환경에서의 Gemma 4 모델 벤치마크

요약

Triple Nvidia GTX-1070 GPU 환경에서 Gemma 4 모델의 추론 성능을 벤치마크한 결과입니다. 다양한 모델 크기와 양자화 방식에 따른 토큰 생성 속도 및 효율성을 측정하였습니다.

핵심 포인트

  • Gemma-4-26B-A4B-it-qat 모델이 매우 빠른 속도와 높은 코딩 정확도를 기록함
  • GTX-1070 3개를 활용하여 총 24GiB VRAM 환경에서 테스트 수행
  • PCIe 1x 익스텐더 사용 시 모델 로드 시간은 증가하나 추론 속도는 일정함
  • 전력 제한 설정을 통해 시스템 안정성과 전력 효율을 고려함

Gemma 4에 대해 좋은 이야기를 많이 듣고 있습니다. 제 llama 박스에서 몇 가지 모델을 실행해 보았습니다. Kubuntu 26.04 OS를 사용 중입니다. AMD Ryzen 5 3600 6코어 CPU, 48 GiB의 DDR4 3600 Mhz RAM을 갖추고 있습니다. Nvidia GTX-1070 8GiB VRAM (X 3)을 사용하여 총 24GiB VRAM을 사용합니다. GPU의 전력 제한(power limit)은 다음 명령어를 사용하여 120, 121, 122 와트로 설정했습니다: sudo nvidia-smi -i 0 -pl 120, sudo nvidia-smi -i 1 -pl 121, sudo nvidia-smi -i 2 -pl 122. 추론 (inference) 성능은 약 5% 정도 하락하지만, 제 파워 서플라이(power supply)는 이를 반깁니다. https://github.com/ggml-org/llama.cpp/releases . 빌드: 726704a16 (9204). llama-b9204 Vulkan t GGUF 사용된 모델, 크기 및 벤치마크 시간

GGUF 모델 크기 실제 시간
gemma-4-31B-it-UD-Q4_K_XL 17.52 GiB 3m35.477s
gemma-4-12b-it-UD-Q8_K_XL 12.69 GiB 1m58.800s
gemma-4-26B-A4B-it-UD-Q4_K_XL 15.83 GiB 1m44.697s
gemma-4-26B-A4B-it-qat-UD-Q4_K_XL 13.26 GiB 1m29.604s
gemma-4-E4B-it-BF16 14.00 GiB 1m46.234s

Gemma 4 벤치마크 결과 요약

모델 크기 파라미터(Params) pp512 (t/s) tg128 (t/s)
31B Q4_K - Medium 17.52 30.70 56.21 7.12
12B Q8_0 12.69 11.91 128.85 13.47
26B.A4B Q4_K - Medium 15.83 25.23 114.05 41.28
26B.A4B Q4_0 QAT 13.26 25.23 123.50 53.08
E4B BF16 14.00 7.52 302.16 11.54

세 개의 Nvidia GTX-1070이 각각 16x, 4x, 1x로 작동 중입니다. 카드 한 장은 과거 채굴(mining) 작업에 사용했던 PCIe 1x 익스텐더(extender)에 연결되어 있습니다. 모델 로드 시간은 느려졌지만 추론 (inference) 속도는 일정했습니다. Gemma-4-26B-A4B-it-qat-UD-Q4_K_XL 모델은 뛰어난 속도를 보여주었으며 코딩 작업에서 매우 정확했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0