본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 06. 13:57

Google, Hugging Face에 QAT 최적화된 Gemma 4 31B 모델 출시

요약

Google이 Hugging Face에 QAT(양자화 인식 학습)로 최적화된 Gemma 4 31B 모델을 출시했습니다. 이 모델은 bfloat16 수준의 품질을 유지하면서 vLLM에서의 메모리 사용량을 획기적으로 줄였습니다. 또한 Code2LoRA 기술을 통해 저장소를 단 한 번의 순전파로 LoRA 어댑터로 변환할 수 있습니다.

핵심 포인트

  • QAT 최적화를 통해 bfloat16급 품질과 낮은 메모리 사용량 달성
  • 4-bit 가중치 최적화로 vLLM 추론 효율성 극대화
  • Code2LoRA를 활용한 저장소 단위의 효율적인 LoRA 변환
  • 미세 조정 및 대규모 컨텍스트 창 없이도 코드 지식 압축 가능

Google이 방금 Hugging Face에 QAT(Quantization-Aware Training, 양자화 인식 학습) 최적화된 Gemma 4 31B 모델을 출시했습니다.

vLLM을 위한 메모리 사용량을 획기적으로 낮췄습니다.

bfloat16에 근접한 품질을 유지하면서 말이죠.

새로운 compressed-tensors 체크포인트를 여기서 확인하세요:
https://huggingface.co/google/gemma-4-31B-it-qat-w4a16-ct

4-bit 가중치(weights)로 최적화된 vLLM 추론(inference)을 사용할 준비가 되었습니다.

Code2LoRA는 단 한 번의 순전파(forward pass)로 모든 저장소(repository)를 LoRA 어댑터로 변환합니다.

하이퍼네트워크(hypernetwork)가 코드베이스를 읽고 그 지식을 가중치(weights)로 압축합니다.

더 이상 저장소별 미세 조정(fine-tuning)이 필요하지 않습니다. 비대해진 컨텍스트 창(context windows)도 필요 없습니다.

Static은 저장소를 스냅샷으로 찍고, Evo는 GRU를 통해 커밋(commits)을 추적합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0