Gemma 4 QAT 모델: 모바일과 노트북 효율성을 위한 압축 최적화

요약

Gemma 4 QAT 모델의 로컬 실행 경험과 양자화 인식 학습(QAT)의 기술적 특성을 분석합니다. 4비트 양자화 모델의 효율성과 BF16 형식 저장 방식, 그리고 실제 VRAM 사용량에 대한 기술적 고찰을 담고 있습니다.

핵심 포인트

Gemma 4 E2B 모델의 멀티모달(오디오, 이미지) 로컬 실행 성능 확인
양자화 인식 학습(QAT)을 통한 4비트 모델의 효율성 및 BF16 저장 방식 분석
실제 사용 환경에서의 VRAM 요구량과 Google 공식 문서 간의 차이 지적
소형 모델 출시 시 4~8비트 양자화 성능 벤치마크 공개 필요성 강조

Mac에서 uvx litert-lm run으로 Gemma 4 E2B를 로컬 실행해 봤고, 첫 실행 때 ~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lm에 3.2GB를 내려받음
이 크기 모델이 오디오와 이미지 입력도 처리하는 게 꽤 인상적이고, 이미지에는 --attachment image.jpg --prompt describe, 오디오에는 --attachment audio.wav --prompt transcribe처럼 실행 가능함
펠리컨 SVG 결과물 자체는 별로였지만, 3.2GB 파일이 유효한 SVG를 내놓는다는 점은 놀라웠음: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...

이게 실제로 양자화 인식 학습(QAT) 인지 헷갈림
MLX Community 모델들은 이름에 그렇게 들어가 있는데, 여기 모델들은 그렇지 않고 업로드 날짜도 완전히 맞아 보이지 않음

텍스트 전용 0.8GB 버전도 있다는 게 놀라움
이제 기기 안에서 영상과 오디오를 인식하는 기본적인 실시간 대화가 가능해짐

별개로 uvx는 쓰기 정말 편함
Nvidia도 사람들이 Docker 우회 절차를 밟게 하지 말고 1급으로 지원해줬으면 좋겠음

그 차트를 오해한 것 같음
거기서 보이는 건 일반 BF16이 아니라 BF16 QAT Q4_0임
Google이 모델을 4비트로 양자화한 뒤, 하위 패커와의 호환성과 편의를 위해 결과를 BF16 형식으로 저장했다는 뜻에 가까움
작은 8비트 숫자를 32비트 정수에 담아두는 것과 비슷해서, 양자화하지 않은 BF16의 100%에 가깝다는 의미는 아님
다만 Google이 공개한 4비트 QAT Q4_0이 BF16 QAT Q4_0의 정확히 100%가 아닌 이유는 궁금함. 두 패킹 사이 변환은 추가 양자화 없이 비트 조작이면 될 것 같은데, Unsloth는 격자 정렬 문제가 있다고 말함
그와 별개로 Google, Qwen 같은 소형 모델 제작사들이 새 모델을 낼 때 BF16 벤치마크만 보여주는 건 싫음. 실제로 사람들은 4~8비트 양자화를 돌리는데, 4비트와 6비트에서 얼마나 손해 보는지 알기 너무 어려움

헷갈리는데, Unsloth 모델은 약 600MB이고 Google 쪽은 7GB인 건가?

이번 주만 봐도 Gemma 생태계가 얼마나 빠르게 발전했는지 인상적임
Gemma 12B, 다중 토큰 예측, 공식 양자화 모델이 나왔고, Google이 이 릴리스 흐름에 진짜 힘을 쏟는 느낌이라 기대됨

WWDC 직전 금요일이고, Apple이 Google 모델 기반의 “개선된” Siri를 발표할 예정이라는 점이 눈에 띔
지금은 잠긴 파트너십일 수 있지만, Apple이 다음 주에 시연할 모델을 Google이 미리 공개하는 것일 수도 있음
확실한 정보는 없고 그냥 추측임

Gemma 4 12B를 공개하고(https://news.ycombinator.com/item?id=48385906), 며칠 뒤에 정식 Q4_0 Gemma 4 12B를 내는 건 조금 어색함
그래도 이 글이 Q4_0 Gemma 4 12B의 예상 VRAM 사용량을 6.7GB로 적어둔 건 좋고, Google이 말한 16GB 안에 넉넉히 들어간다는 주장에는 맞지만 결국 양자화 버전만 해당된다는 점도 확인됨
관련해서 Google이 새로 낸 macOS용 Edge Gallery에서는 16GB 머신에서도 RAM 부족으로 Gemma 4 12B를 지원하지 않는다고 명시되어 있는데, 여기 예상 VRAM 사용량을 보면 Q4_0 변형은 분명 들어가야 하므로 Google이 고쳐야 함

여러 릴리스가 있는 게 왜 어색한지는 잘 모르겠음
모델과 변형이 준비되는 대로 내는 편이, 모든 게 한꺼번에 준비될 때까지 붙잡아두는 것보다 낫다고 봄 Q4_0은 원래 Gemma 4 12B를 단순 양자화한 게 아니라, 양자화 인식 학습 체크포인트임

이해한 게 맞는지 모르겠지만, 4Q와 QAT 4Q는 서로 다름

Google Pixel Intelligence가 Apple Intelligence를 이길 수도 있음

12B 모델을 8GB VRAM에서 돌릴 수 있다는 건 큰 변화임
작은 로컬 모델들이 얼마나 빠르게 발전했는지 놀라움

AI 자동 생성 콘텐츠

원문 바로가기

Gemma 4 QAT 모델: 모바일과 노트북 효율성을 위한 압축 최적화

요약

핵심 포인트

댓글