온디바이스 AI의 새 기준, 개방형 멀티모달 모델 Gemma 4 출시
요약
Gemma 4는 Apache 2 라이선스로 완전히 개방된 최첨단 멀티모달 인텔리전스 모델입니다. 오디오, 이미지, 텍스트 입력을 모두 지원하며, 온디바이스(on-device) 환경에서도 구동 가능하도록 설계되었습니다. 이 모델은 이전 Gemma 시리즈의 장점을 계승하면서도 변형 비율을 고려한 개선된 이미지 인코더와 효율적인 Per-Layer Embeddings (PLE), Shared KV Cache 같은 아키텍처 최적화를 적용했습니다. 2.3B부터 31B까지 다양한 크기로 제공되며, 특히 4B 활성 파라미터만으로 높은 성능을 내는
핵심 포인트
- Gemma 4는 Apache 2 라이선스로 공개되어 사용의 자유도가 매우 높습니다.
- 오디오, 이미지, 텍스트를 모두 처리하는 네이티브 멀티모달 기능을 기본 지원합니다.
- E2B (2.3B)와 E4B (4.5B) 등 소형 모델을 통해 온디바이스 환경에서의 활용성이 뛰어납니다.
- PLE 및 Shared KV Cache 같은 아키텍처 개선으로 긴 컨텍스트 처리 능력과 효율성을 극대화했습니다.
🚀 Gemma 4: 개방성과 성능을 모두 잡은 멀티모달 AI
Gemma 4는 Apache 2 라이선스로 완전히 공개된 최첨단(Frontier) 멀티모달 인텔리전스 모델입니다. 오디오, 이미지, 텍스트 등 다양한 입력을 처리하며 온디바이스 환경에서도 구동할 수 있도록 설계되었습니다.
이 모델은 이전 Gemma 시리즈의 기술적 진보를 통합하고 사용자 친화적인 아키텍처로 재구성했습니다. 특히 이미지 인코더는 가변 종횡비(variable aspect ratios)와 설정 가능한 토큰 입력 개수 등 중요한 개선을 거쳤습니다.
주요 특징 및 모델 크기:
Gemma 4는 E2B (2.3B), E4B (4.5B), 31B, 그리고 MoE 구조의 26B A4B 네 가지 크기로 제공됩니다. 모든 모델은 기본(base) 및 명령어 추론(instruction fine-tuned, IT) 버전을 지원합니다.
기술적 혁신:
Gemma 4는 효율성을 극대화한 여러 아키텍처 요소를 도입했습니다. 대표적으로 **Per-Layer Embeddings (PLE)**는 각 디코더 레이어에 토큰별 특화 정보를 제공하여, 모든 정보를 초기 임베딩 단계에 몰아넣을 필요가 없게 합니다. 또한, Shared KV Cache를 통해 추론 시 계산량과 메모리 사용량을 크게 줄여 장문 컨텍스트 및 온디바이스 사용에 최적화되었습니다.
이러한 기술적 조합 덕분에 31B 모델은 높은 LMArena 점수를 기록했으며, 특히 4B의 활성 파라미터만 사용하는 MoE 구조의 26B A4B도 뛰어난 성능을 보여주었습니다. Gemma 4는 OCR, 음성-텍스트 변환(speech-to-text), 객체 감지 등 다양한 멀티모달 작업에 즉시 활용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기