
Google, Hugging Face에 QAT 최적화된 Gemma 4 31B 모델 출시
요약
Google이 Hugging Face에 QAT(양자화 인식 학습)로 최적화된 Gemma 4 31B 모델을 출시했습니다. 이 모델은 bfloat16 수준의 품질을 유지하면서 vLLM에서의 메모리 사용량을 획기적으로 줄였습니다. 또한 Code2LoRA 기술을 통해 저장소를 단 한 번의 순전파로 LoRA 어댑터로 변환할 수 있습니다.
핵심 포인트
- QAT 최적화를 통해 bfloat16급 품질과 낮은 메모리 사용량 달성
- 4-bit 가중치 최적화로 vLLM 추론 효율성 극대화
- Code2LoRA를 활용한 저장소 단위의 효율적인 LoRA 변환
- 미세 조정 및 대규모 컨텍스트 창 없이도 코드 지식 압축 가능
Google이 방금 Hugging Face에 QAT(Quantization-Aware Training, 양자화 인식 학습) 최적화된 Gemma 4 31B 모델을 출시했습니다.
vLLM을 위한 메모리 사용량을 획기적으로 낮췄습니다.
bfloat16에 근접한 품질을 유지하면서 말이죠.
새로운 compressed-tensors 체크포인트를 여기서 확인하세요:
https://huggingface.co/google/gemma-4-31B-it-qat-w4a16-ct
…
4-bit 가중치(weights)로 최적화된 vLLM 추론(inference)을 사용할 준비가 되었습니다.
Code2LoRA는 단 한 번의 순전파(forward pass)로 모든 저장소(repository)를 LoRA 어댑터로 변환합니다.
하이퍼네트워크(hypernetwork)가 코드베이스를 읽고 그 지식을 가중치(weights)로 압축합니다.
더 이상 저장소별 미세 조정(fine-tuning)이 필요하지 않습니다. 비대해진 컨텍스트 창(context windows)도 필요 없습니다.
Static은 저장소를 스냅샷으로 찍고, Evo는 GRU를 통해 커밋(commits)을 추적합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기