Dev.to헤드라인2026. 06. 06. 20:39

mlx-vlm v0.6.2, 로컬 GPU를 위한 Gemma 4 QAT 지원 추가

요약

mlx-vlm v0.6.2 업데이트를 통해 Google DeepMind의 Gemma 4 QAT 체크포인트 지원이 추가되었습니다. 이를 통해 소비자용 GPU 및 에지 디바이스에서 정확도 손실을 최소화하며 Gemma 4 모델을 로컬로 실행할 수 있습니다.

핵심 포인트

Gemma 4 QAT 체크포인트 지원으로 로컬 추론 최적화
Gemma 4 12B 모델의 비디오 입력 기능 추가
양자화 인식 훈련(QAT)을 통한 모델 압축 및 정확도 유지
소비자용 GPU 및 에지 디바이스 환경 지원 강화

mlx-vlm v0.6.2는 Google DeepMind의 Gemma 4 QAT 체크포인트를 출시 당일에 지원하며, 12B 모델의 비디오 입력을 포함하여 소비자용 GPU 및 에지 디바이스(edge devices)에서 로컬 추론(local inference)을 가능하게 합니다.

mlx-vlm v0.6.2는 Google DeepMind의 Gemma 4 양자화 인식 훈련 (Quantization-Aware Training, QAT) 체크포인트를 출시 당일에 지원하며 출시되었습니다. 이번 릴리스를 통해 압축된 Gemma 4 모델을 소비자용 GPU 및 에지 디바이스에서 로컬로 실행할 수 있습니다.

주요 사실

mlx-vlm v0.6.2, Gemma 4 QAT 지원과 함께 출시
Google DeepMind의 Gemma 4 QAT 체크포인트 제공
Gemma 4 12B 모델에 대한 비디오 입력 지원
소비자용 GPU 및 에지 디바이스에 최적화
Google DeepMind와의 출시 당일 파트너십

mlx-vlm 팀은 X를 통해 발표하며 버전 0.6.2가 Google DeepMind의 최신 Gemma 4 QAT 체크포인트를 통합했다고 밝혔습니다. 이 체크포인트들은 양자화 인식 훈련 (Quantization-Aware Training)이 적용되어, 소비자용 하드웨어에서의 로컬 추론을 위해 정확도를 유지하면서 모델을 압축하도록 설계되었습니다.

이번 업데이트에는 Gemma 4에 특화된 신뢰성 수정 사항이 포함되어 있으며, Gemma 4 12B 변체에 대한 비디오 입력 지원이 추가되었습니다. 단일 요청에 대한 APC 수정 사항도 포함되었습니다. 이번 릴리스는 Gemma 4를 데이터 센터 GPU 외부에서도 더 쉽게 사용할 수 있도록 하는 것을 목표로 하는 Google DeepMind의 QAT 출시의 출시 당일 파트너로서 mlx-vlm의 위치를 공고히 합니다.

양자화 인식 훈련 (Quantization-Aware Training)을 사용하면 사후 훈련 양자화 (Post-Training Quantization)에서 나타나는 전형적인 정확도 손실 없이 모델을 압축할 수 있습니다. Gemma 4 QAT 체크포인트는 소비자용 GPU 및 에지 디바이스에 최적화되어 있어, 더 큰 모델을 성능이 낮은 하드웨어에서도 실행할 수 있음을 의미합니다. mlx-vlm 프레임워크는 Apple Silicon에 최적화된 Apple의 MLX 라이브러리를 기반으로 구축되었지만, 체크포인트 자체는 모델 불가지론적 (model-agnostic)입니다.

이번 릴리스에서 언급되지 않은 내용

PaliGemma: A Lightweight Open-Source VLM for Image Analysis and ...

이번 발표에서는 QAT 모델과 전체 정밀도 (full-precision) Gemma 4 간의 벤치마크 성능을 공개하지 않았습니다. 지연 시간 (latency)이나 메모리 수치도 제공되지 않았습니다. 또한 팀은 어떤 양자화 비트 너비 (quantization bit-widths)가 지원되는지(예: 4-bit, 8-bit) 명시하지 않았으나, 일반적으로 QAT는 4-bit 또는 8-bit 추론을 목표로 합니다. 트윗에 포함된 모델 컬렉션 링크가 확장되어 있지 않아, 12B 변형 모델 외에 사용 가능한 정확한 모델 크기는 아직 확인되지 않은 상태입니다.

이것이 중요한 이유

jason-schulz/Gemma-4-26B-A4B-Hermes-VLM-MLX · Hugging Face

Google DeepMind가 출시 당일에 QAT 체크포인트를 공개하는 것은 변화된 흐름입니다. 이전에는 양자화 (quantization)가 제3자(예: llama.cpp, AutoGPTQ)에 의해 수행되는 사후 단계였습니다. 훈련 과정에 양자화를 내장함으로써, Google은 압축된 모델이 충실도 (fidelity)를 유지하도록 보장하며, 커뮤니티의 보정 데이터셋 (calibration datasets)에 대한 필요성을 줄여줍니다. mlx-vlm의 경우, 출시 당일 파트너가 되었다는 것은 이 프레임워크가 이제 Hugging Face Transformers가 PyTorch에서 그러하듯, Google의 오픈 모델을 위한 일류 배포 대상 (first-class deployment target)임을 의미합니다.

주목해야 할 점

일반적인 엣지 벤치마크(예: MLPerf Edge)에서 Gemma 4 QAT와 전체 정밀도 모델 간의 벤치마크 비교를 주목하십시오. 또한 Google이 향후 오픈 모델들에 대해서도 출시 당일에 QAT 체크포인트를 공개하는지 지켜봐야 하며, 이는 배포 전략의 영구적인 변화를 나타내는 지표가 될 것입니다.

원문은 gentic.news에 게시되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

mlx-vlm v0.6.2, 로컬 GPU를 위한 Gemma 4 QAT 지원 추가

요약

핵심 포인트

이번 릴리스에서 언급되지 않은 내용

이것이 중요한 이유

주목해야 할 점

댓글