본문으로 건너뛰기

© 2026 Molayo

GeekNews헤드라인2026. 06. 06. 09:41

Gemma 4 QAT 모델: 모바일과 노트북 효율성을 위한 압축 최적화

요약

Gemma 4 QAT 모델의 로컬 실행 경험과 양자화 인식 학습(QAT)의 기술적 특성을 분석합니다. 4비트 양자화 모델의 효율성과 BF16 형식 저장 방식, 그리고 실제 VRAM 사용량에 대한 기술적 고찰을 담고 있습니다.

핵심 포인트

  • Gemma 4 E2B 모델의 멀티모달(오디오, 이미지) 로컬 실행 성능 확인
  • 양자화 인식 학습(QAT)을 통한 4비트 모델의 효율성 및 BF16 저장 방식 분석
  • 실제 사용 환경에서의 VRAM 요구량과 Google 공식 문서 간의 차이 지적
  • 소형 모델 출시 시 4~8비트 양자화 성능 벤치마크 공개 필요성 강조

Mac에서 uvx litert-lm run으로 Gemma 4 E2B를 로컬 실행해 봤고, 첫 실행 때 ~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lm에 3.2GB를 내려받음
이 크기 모델이 오디오와 이미지 입력도 처리하는 게 꽤 인상적이고, 이미지에는 --attachment image.jpg --prompt describe, 오디오에는 --attachment audio.wav --prompt transcribe처럼 실행 가능함
펠리컨 SVG 결과물 자체는 별로였지만, 3.2GB 파일이 유효한 SVG를 내놓는다는 점은 놀라웠음: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...

이게 실제로 양자화 인식 학습(QAT) 인지 헷갈림
MLX Community 모델들은 이름에 그렇게 들어가 있는데, 여기 모델들은 그렇지 않고 업로드 날짜도 완전히 맞아 보이지 않음

텍스트 전용 0.8GB 버전도 있다는 게 놀라움
이제 기기 안에서 영상과 오디오를 인식하는 기본적인 실시간 대화가 가능해짐

별개로 uvx는 쓰기 정말 편함
Nvidia도 사람들이 Docker 우회 절차를 밟게 하지 말고 1급으로 지원해줬으면 좋겠음

그 차트를 오해한 것 같음
거기서 보이는 건 일반 BF16이 아니라 BF16 QAT Q4_0임
Google이 모델을 4비트로 양자화한 뒤, 하위 패커와의 호환성과 편의를 위해 결과를 BF16 형식으로 저장했다는 뜻에 가까움
작은 8비트 숫자를 32비트 정수에 담아두는 것과 비슷해서, 양자화하지 않은 BF16의 100%에 가깝다는 의미는 아님
다만 Google이 공개한 4비트 QAT Q4_0이 BF16 QAT Q4_0의 정확히 100%가 아닌 이유는 궁금함. 두 패킹 사이 변환은 추가 양자화 없이 비트 조작이면 될 것 같은데, Unsloth는 격자 정렬 문제가 있다고 말함
그와 별개로 Google, Qwen 같은 소형 모델 제작사들이 새 모델을 낼 때 BF16 벤치마크만 보여주는 건 싫음. 실제로 사람들은 4~8비트 양자화를 돌리는데, 4비트와 6비트에서 얼마나 손해 보는지 알기 너무 어려움

헷갈리는데, Unsloth 모델은 약 600MB이고 Google 쪽은 7GB인 건가?

이번 주만 봐도 Gemma 생태계가 얼마나 빠르게 발전했는지 인상적임
Gemma 12B, 다중 토큰 예측, 공식 양자화 모델이 나왔고, Google이 이 릴리스 흐름에 진짜 힘을 쏟는 느낌이라 기대됨

WWDC 직전 금요일이고, Apple이 Google 모델 기반의 “개선된” Siri를 발표할 예정이라는 점이 눈에 띔
지금은 잠긴 파트너십일 수 있지만, Apple이 다음 주에 시연할 모델을 Google이 미리 공개하는 것일 수도 있음
확실한 정보는 없고 그냥 추측임

Gemma 4 12B를 공개하고(https://news.ycombinator.com/item?id=48385906), 며칠 뒤에 정식 Q4_0 Gemma 4 12B를 내는 건 조금 어색함
그래도 이 글이 Q4_0 Gemma 4 12B의 예상 VRAM 사용량을 6.7GB로 적어둔 건 좋고, Google이 말한 16GB 안에 넉넉히 들어간다는 주장에는 맞지만 결국 양자화 버전만 해당된다는 점도 확인됨
관련해서 Google이 새로 낸 macOS용 Edge Gallery에서는 16GB 머신에서도 RAM 부족으로 Gemma 4 12B를 지원하지 않는다고 명시되어 있는데, 여기 예상 VRAM 사용량을 보면 Q4_0 변형은 분명 들어가야 하므로 Google이 고쳐야 함

여러 릴리스가 있는 게 왜 어색한지는 잘 모르겠음
모델과 변형이 준비되는 대로 내는 편이, 모든 게 한꺼번에 준비될 때까지 붙잡아두는 것보다 낫다고 봄 Q4_0은 원래 Gemma 4 12B를 단순 양자화한 게 아니라, 양자화 인식 학습 체크포인트임

이해한 게 맞는지 모르겠지만, 4Q와 QAT 4Q는 서로 다름

Google Pixel Intelligence가 Apple Intelligence를 이길 수도 있음

12B 모델을 8GB VRAM에서 돌릴 수 있다는 건 큰 변화임
작은 로컬 모델들이 얼마나 빠르게 발전했는지 놀라움

AI 자동 생성 콘텐츠

본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0