Gemma 4가 당신의 노트북에서 실행됩니다: QAT, 1GB 모델 및 Arm의 5.5배 성능 향상
요약
Google DeepMind가 소비자용 노트북에서 로컬 실행이 가능한 Gemma 4 12B 모델을 출시했습니다. QAT 기술을 통해 모델 크기를 1GB로 압축했으며, Armv9 CPU에서 성능이 대폭 향상되어 실질적인 온디바이스 AI 활용이 가능해졌습니다.
핵심 포인트
- QAT를 통해 Gemma 4 12B 모델 크기를 약 1GB로 경량화
- 네이티브 오디오 입력을 지원하는 최초의 중간 크기 Gemma 모델
- Armv9 CPU에서 프리필 속도 약 5.5배, 디코드 속도 1.6배 향상
- 16GB RAM 노트북 환경에서 원활한 온디바이스 실행 가능
AI Tech Connect에 처음 게시되었습니다.
개발자가 알아야 할 세 가지 사항: 이제 모델이 기기에 적합해졌습니다. Google DeepMind는 2026년 6월 3일, 16GB RAM을 탑재한 소비자용 노트북에서 로컬로 실행되도록 설계된 Gemma 4 12B를 출시했으며, 이는 네이티브 오디오 입력을 지원하는 최초의 중간 크기 Gemma 모델입니다. QAT (Quantization-Aware Training, 양자화 인식 학습)를 통해 모델 크기를 약 1GB로 줄였습니다. 2026년 6월 5일경 DeepMind는 양자화 인식 학습 (QAT) 체크포인트를 배포했습니다. 이는 Q4_0 빌드와 Gemma 4 E2B의 점유 공간을 약 1GB로 줄여주는 새로운 모바일 특화 형식을 포함합니다. Arm 하드웨어는 이를 대화형으로 만들어 줍니다. Arm의 보고에 따르면 Armv9 CPU에서 실행되는 Gemma 4 E2B는 평균적으로 약 5.5배의 프리필 (prefill) 속도 향상과 최대 1.6배 빠른 디코드 (decode) 속도를 달성했습니다. 이는 단순한 데모가 아닌, 실제 온디바이스 (on-device) 사용이 가능할 만큼 충분히 빠릅니다. 지난 2년 동안 온디바이스의 이야기는 항상 "거의"였습니다. 휴대폰에서 작은 모델을 실행할 수는 있었지만, 유용하기에는 너무 멍청하거나 사용하기에는 너무 느렸습니다...
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기