X요약2026. 06. 06. 13:57

Google, Hugging Face에 QAT 최적화된 Gemma 4 31B 모델 출시

요약

Google이 Hugging Face에 QAT(양자화 인식 학습)로 최적화된 Gemma 4 31B 모델을 출시했습니다. 이 모델은 bfloat16 수준의 품질을 유지하면서 vLLM에서의 메모리 사용량을 획기적으로 줄였습니다. 또한 Code2LoRA 기술을 통해 저장소를 단 한 번의 순전파로 LoRA 어댑터로 변환할 수 있습니다.

핵심 포인트

QAT 최적화를 통해 bfloat16급 품질과 낮은 메모리 사용량 달성
4-bit 가중치 최적화로 vLLM 추론 효율성 극대화
Code2LoRA를 활용한 저장소 단위의 효율적인 LoRA 변환
미세 조정 및 대규모 컨텍스트 창 없이도 코드 지식 압축 가능

Google이 방금 Hugging Face에 QAT(Quantization-Aware Training, 양자화 인식 학습) 최적화된 Gemma 4 31B 모델을 출시했습니다.

vLLM을 위한 메모리 사용량을 획기적으로 낮췄습니다.

bfloat16에 근접한 품질을 유지하면서 말이죠.

새로운 compressed-tensors 체크포인트를 여기서 확인하세요:
https://huggingface.co/google/gemma-4-31B-it-qat-w4a16-ct
…
4-bit 가중치(weights)로 최적화된 vLLM 추론(inference)을 사용할 준비가 되었습니다.

Code2LoRA는 단 한 번의 순전파(forward pass)로 모든 저장소(repository)를 LoRA 어댑터로 변환합니다.

하이퍼네트워크(hypernetwork)가 코드베이스를 읽고 그 지식을 가중치(weights)로 압축합니다.

더 이상 저장소별 미세 조정(fine-tuning)이 필요하지 않습니다. 비대해진 컨텍스트 창(context windows)도 필요 없습니다.

Static은 저장소를 스냅샷으로 찍고, Evo는 GRU를 통해 커밋(commits)을 추적합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Google, Hugging Face에 QAT 최적화된 Gemma 4 31B 모델 출시

요약

핵심 포인트

댓글