
mlx-vlm v0.6.2, 로컬 GPU를 위한 Gemma 4 QAT 지원 추가
요약
mlx-vlm v0.6.2 업데이트를 통해 Google DeepMind의 Gemma 4 QAT 체크포인트 지원이 추가되었습니다. 이를 통해 소비자용 GPU 및 에지 디바이스에서 정확도 손실을 최소화하며 Gemma 4 모델을 로컬로 실행할 수 있습니다.
핵심 포인트
- Gemma 4 QAT 체크포인트 지원으로 로컬 추론 최적화
- Gemma 4 12B 모델의 비디오 입력 기능 추가
- 양자화 인식 훈련(QAT)을 통한 모델 압축 및 정확도 유지
- 소비자용 GPU 및 에지 디바이스 환경 지원 강화
mlx-vlm v0.6.2는 Google DeepMind의 Gemma 4 QAT 체크포인트를 출시 당일에 지원하며, 12B 모델의 비디오 입력을 포함하여 소비자용 GPU 및 에지 디바이스(edge devices)에서 로컬 추론(local inference)을 가능하게 합니다.
mlx-vlm v0.6.2는 Google DeepMind의 Gemma 4 양자화 인식 훈련 (Quantization-Aware Training, QAT) 체크포인트를 출시 당일에 지원하며 출시되었습니다. 이번 릴리스를 통해 압축된 Gemma 4 모델을 소비자용 GPU 및 에지 디바이스에서 로컬로 실행할 수 있습니다.
주요 사실
- mlx-vlm v0.6.2, Gemma 4 QAT 지원과 함께 출시
- Google DeepMind의 Gemma 4 QAT 체크포인트 제공
- Gemma 4 12B 모델에 대한 비디오 입력 지원
- 소비자용 GPU 및 에지 디바이스에 최적화
- Google DeepMind와의 출시 당일 파트너십
mlx-vlm 팀은 X를 통해 발표하며 버전 0.6.2가 Google DeepMind의 최신 Gemma 4 QAT 체크포인트를 통합했다고 밝혔습니다. 이 체크포인트들은 양자화 인식 훈련 (Quantization-Aware Training)이 적용되어, 소비자용 하드웨어에서의 로컬 추론을 위해 정확도를 유지하면서 모델을 압축하도록 설계되었습니다.
이번 업데이트에는 Gemma 4에 특화된 신뢰성 수정 사항이 포함되어 있으며, Gemma 4 12B 변체에 대한 비디오 입력 지원이 추가되었습니다. 단일 요청에 대한 APC 수정 사항도 포함되었습니다. 이번 릴리스는 Gemma 4를 데이터 센터 GPU 외부에서도 더 쉽게 사용할 수 있도록 하는 것을 목표로 하는 Google DeepMind의 QAT 출시의 출시 당일 파트너로서 mlx-vlm의 위치를 공고히 합니다.
양자화 인식 훈련 (Quantization-Aware Training)을 사용하면 사후 훈련 양자화 (Post-Training Quantization)에서 나타나는 전형적인 정확도 손실 없이 모델을 압축할 수 있습니다. Gemma 4 QAT 체크포인트는 소비자용 GPU 및 에지 디바이스에 최적화되어 있어, 더 큰 모델을 성능이 낮은 하드웨어에서도 실행할 수 있음을 의미합니다. mlx-vlm 프레임워크는 Apple Silicon에 최적화된 Apple의 MLX 라이브러리를 기반으로 구축되었지만, 체크포인트 자체는 모델 불가지론적 (model-agnostic)입니다.
이번 릴리스에서 언급되지 않은 내용
이번 발표에서는 QAT 모델과 전체 정밀도 (full-precision) Gemma 4 간의 벤치마크 성능을 공개하지 않았습니다. 지연 시간 (latency)이나 메모리 수치도 제공되지 않았습니다. 또한 팀은 어떤 양자화 비트 너비 (quantization bit-widths)가 지원되는지(예: 4-bit, 8-bit) 명시하지 않았으나, 일반적으로 QAT는 4-bit 또는 8-bit 추론을 목표로 합니다. 트윗에 포함된 모델 컬렉션 링크가 확장되어 있지 않아, 12B 변형 모델 외에 사용 가능한 정확한 모델 크기는 아직 확인되지 않은 상태입니다.
이것이 중요한 이유
Google DeepMind가 출시 당일에 QAT 체크포인트를 공개하는 것은 변화된 흐름입니다. 이전에는 양자화 (quantization)가 제3자(예: llama.cpp, AutoGPTQ)에 의해 수행되는 사후 단계였습니다. 훈련 과정에 양자화를 내장함으로써, Google은 압축된 모델이 충실도 (fidelity)를 유지하도록 보장하며, 커뮤니티의 보정 데이터셋 (calibration datasets)에 대한 필요성을 줄여줍니다. mlx-vlm의 경우, 출시 당일 파트너가 되었다는 것은 이 프레임워크가 이제 Hugging Face Transformers가 PyTorch에서 그러하듯, Google의 오픈 모델을 위한 일류 배포 대상 (first-class deployment target)임을 의미합니다.
주목해야 할 점
일반적인 엣지 벤치마크(예: MLPerf Edge)에서 Gemma 4 QAT와 전체 정밀도 모델 간의 벤치마크 비교를 주목하십시오. 또한 Google이 향후 오픈 모델들에 대해서도 출시 당일에 QAT 체크포인트를 공개하는지 지켜봐야 하며, 이는 배포 전략의 영구적인 변화를 나타내는 지표가 될 것입니다.
원문은 gentic.news에 게시되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기