Triple GPU 환경에서의 Gemma 4 모델 벤치마크

Gemma 4에 대해 좋은 이야기를 많이 듣고 있습니다. 제 llama 박스에서 몇 가지 모델을 실행해 보았습니다. Kubuntu 26.04 OS를 사용 중입니다. AMD Ryzen 5 3600 6코어 CPU, 48 GiB의 DDR4 3600 Mhz RAM을 갖추고 있습니다. Nvidia GTX-1070 8GiB VRAM (X 3)을 사용하여 총 24GiB VRAM을 사용합니다. GPU의 전력 제한(power limit)은 다음 명령어를 사용하여 120, 121, 122 와트로 설정했습니다: sudo nvidia-smi -i 0 -pl 120, sudo nvidia-smi -i 1 -pl 121, sudo nvidia-smi -i 2 -pl 122. 추론 (inference) 성능은 약 5% 정도 하락하지만, 제 파워 서플라이(power supply)는 이를 반깁니다. https://github.com/ggml-org/llama.cpp/releases . 빌드: 726704a16 (9204). llama-b9204 Vulkan t GGUF 사용된 모델, 크기 및 벤치마크 시간

GGUF 모델 크기 실제 시간
gemma-4-31B-it-UD-Q4_K_XL 17.52 GiB 3m35.477s
gemma-4-12b-it-UD-Q8_K_XL 12.69 GiB 1m58.800s
gemma-4-26B-A4B-it-UD-Q4_K_XL 15.83 GiB 1m44.697s
gemma-4-26B-A4B-it-qat-UD-Q4_K_XL 13.26 GiB 1m29.604s
gemma-4-E4B-it-BF16 14.00 GiB 1m46.234s

Gemma 4 벤치마크 결과 요약

모델 크기 파라미터(Params) pp512 (t/s) tg128 (t/s)
31B Q4_K - Medium 17.52 30.70 56.21 7.12
12B Q8_0 12.69 11.91 128.85 13.47
26B.A4B Q4_K - Medium 15.83 25.23 114.05 41.28
26B.A4B Q4_0 QAT 13.26 25.23 123.50 53.08
E4B BF16 14.00 7.52 302.16 11.54

세 개의 Nvidia GTX-1070이 각각 16x, 4x, 1x로 작동 중입니다. 카드 한 장은 과거 채굴(mining) 작업에 사용했던 PCIe 1x 익스텐더(extender)에 연결되어 있습니다. 모델 로드 시간은 느려졌지만 추론 (inference) 속도는 일정했습니다. Gemma-4-26B-A4B-it-qat-UD-Q4_K_XL 모델은 뛰어난 속도를 보여주었으며 코딩 작업에서 매우 정확했습니다.

Insights

Triple GPU 환경에서의 Gemma 4 모델 벤치마크

요약

핵심 포인트

댓글

AI는 추론에 탁월합니다. 워크플로(Workflows)에 사용하는 것은 멈추세요.

AI 에이전트가 대본을 벗어날 때: OpenAI와 Anthropic의 최근 사건이 노출(Exposure)에 대해 우리에게 가르쳐 주는 것

Gamma 무료인가요? 400 크레딧은 갱신되지 않습니다: 첫 생성 전 deck을 확인하세요

엔화 투기 세력에 대응하기 위한 미일 협정의 배경

AI는 추론에 탁월합니다. 워크플로(Workflows)에 사용하는 것은 멈추세요.

AI 에이전트가 대본을 벗어날 때: OpenAI와 Anthropic의 최근 사건이 노출(Exposure)에 대해 우리에게 가르쳐 주는 것

Gamma 무료인가요? 400 크레딧은 갱신되지 않습니다: 첫 생성 전 deck을 확인하세요

엔화 투기 세력에 대응하기 위한 미일 협정의 배경