Gemma 4 12B 소개: 통합된 인코더 프리 (encoder-free) 멀티모달 모델

요약

Gemma 4 12B는 인코더 없이 시각 및 오디오 입력을 직접 처리하는 통합 아키텍처를 채택한 멀티모달 모델입니다. 16GB VRAM 환경의 노트북에서 로컬 실행이 가능하도록 최적화되었으며, 강력한 추론 능력과 에이전트 워크플로를 지원합니다.

핵심 포인트

인코더가 없는 통합 아키텍처로 시각/오디오 직접 처리
16GB 메모리 환경의 노트북에서 로컬 실행 가능
26B MoE 모델에 근접하는 고급 추론 성능 제공
Apache 2.0 라이선스로 개방성 및 접근성 확보
지연 시간 단축을 위한 Multi-Token Prediction 지원

Gemma 4 12B는 모바일 우선의 효율성과 고급 추론 (reasoning) 능력을 결합하여 고성능 멀티모달 지능을 여러분의 노트북에 직접 제공하도록 설계되었습니다.

오늘 우리는 에이전트형 멀티모달 지능 (agentic multimodal intelligence)을 노트북에 직접 가져오기 위해 설계된 최신 모델인 Gemma 4 12B를 소개합니다. 엣지 친화적인 E4B와 더 발전된 26B Mixture of Experts (MoE) 모델 사이의 간극을 메우는 Gemma 4 12B는 줄어든 메모리 점유율(memory footprint) 안에 강력한 역량을 담았습니다. 또한, 이는 네이티브 오디오 입력 (native audio inputs) 기능을 갖춘 당사의 첫 번째 중간 크기 (mid-sized) 모델이기도 합니다.

개발자 커뮤니티 덕분에 Gemma 4 모델은 이제 1억 5천만 회 이상의 다운로드를 기록했습니다. 여러분은 신체 보조를 위한 웨어러블 로봇 팔부터 기업급 AI 보안에 이르기까지 모든 것을 구축해 왔습니다. 우리는 여러분이 이 최신 모델을 통해 무엇을 만들어낼지 기대됩니다.

Gemma 4 12B를 특별하게 만드는 요소들의 개요는 다음과 같습니다:

새로운 통합 아키텍처 (unified architecture): 멀티모달 인코더 (multimodal encoders)가 없습니다. 시각 및 오디오 입력이 LLM 백본 (backbone)으로 직접 흐릅니다.
고급 추론 (Advanced reasoning): 당사의 26B 모델에 근접하는 벤치마크 성능을 통해 강력한 다단계 추론 (multi-step reasoning) 및 에이전트 워크플로 (agentic workflows)를 실현합니다.
노트북 최적화 (Laptop ready): 16GB의 VRAM 또는 통합 메모리 (unified memory)만 있으면 로컬에서 실행할 수 있을 만큼 작습니다.
개방성 및 접근성: 개발자 생태계 전반의 지원과 함께 Apache 2.0 라이선스로 출시되었습니다.
Drafter 준비 완료: Gemma 4 12B는 지연 시간 (latency)을 줄이기 위해 Multi-Token Prediction (MTP) drafter를 갖추고 있습니다.

이러한 기능들이 결합되어 속도나 추론 능력을 희생하지 않으면서도 일상적인 하드웨어에 고급 멀티모달 역량을 제공합니다. 이제 Gemma 4 12B가 이를 어떻게 달성하는지 자세히 살펴보겠습니다.

최첨단 에이전트를 로컬에서 실행하기

Gemma 4 12B는 표준 벤치마크에서 우리의 더 큰 26B MoE (Mixture-of-Experts) 모델에 근접하는 성능을 제공하면서도, 전체 메모리 점유율(memory footprint)은 절반 미만입니다. 16GB RAM을 탑ів한 소비자용 노트북에서 로컬로 실행할 수 있을 만큼 작기 때문에, 여러분의 기기에서 바로 강력한 멀티모달(multimodal) 및 에이전트(agentic) 경험을 구현할 수 있습니다.

독특하게 효율적인 통합 아키텍처를 경험하세요

Gemma 4 12B를 돋보이게 만드는 것은 시각 및 오디오 입력을 처리하는 간소화된 접근 방식입니다. 전통적인 멀티모달 모델은 일반적으로 이미지와 오디오를 언어 모델(language model)로 전달하기 전에 이를 변환하는 별도의 인코더(encoder)에 의존합니다. 이러한 분리된 인코더들은 지연 시간(latency)을 추가하고 메모리 사용량을 증가시키기 때문에, 우리는 오디오와 시각 입력을 직접 통합할 수 있도록 인코더 프리 (encoder-free) 아키텍처로 Gemma 4 12B를 학습시켰습니다.

Gemma 4 12B가 멀티모달 입력을 네이티브(native)하게 처리하는 방식은 다음과 같습니다:

시각 (Vision): Gemma 4의 비전 인코더(vision encoder)를 단일 행렬 곱셈(matrix multiplication), 위치 임베딩(positional embedding) 및 정규화(normalization)로 구성된 경량 임베딩 모듈로 교체했습니다. 이를 통해 LLM 백본(backbone)이 시각 처리를 담당할 수 있습니다.
오디오 (Audio): 오디오 처리를 더욱 단순화했습니다. 오디오 인코더를 완전히 제거하고, 원시 오디오 신호(raw audio signal)를 텍스트 토큰(text tokens)과 동일한 차원 공간으로 투영(project)했습니다.

상세한 분석을 원하는 개발자라면, 동반 가이드인 Gemma 4 12B 개발자 가이드 (Developer Guide)를 확인해 보세요.

네이티브 오디오 처리가 작동하는 모습을 확인해 보세요: Google AI Edge Eloquent 앱을 사용하여 Gemma 4 12B가 음성 입력을 완전히 오프라인 상태에서 전사(transcribe), 형식화(format) 및 번역(translate)하는 과정을 시청하십시오.

지금 바로 시작하세요

직접 사용해 보기: LM Studio, Ollama, Google AI Edge Gallery App, Google AI Edge Eloquent 앱, 그리고 LiteRT-LM CLI를 통해 몇 번의 클릭만으로 실험해 보세요.
가중치 다운로드: 사전 학습 및 명령어 튜닝된 체크포인트를 Hugging Face와 Kaggle에서 직접 다운로드하세요.
통합 및 학습: 개발자 문서와 빠른 시작 노트북을 검토해 보세요.
선호하는 개발 도구 사용하기: Hugging Face Transformers, llama.cpp, MLX, SGLang, 그리고 vLLM을 사용하여 로컬 추론 파이프라인을 구현하거나, Unsloth를 사용하여 효율적으로 미세 조정하세요.
Gemma Skills로 에이전트 개발 잠금 해제: 에이전트가 최신 Gemma 발전을 활용하여 구축할 수 있도록 지원하기 위해 공식 Skills Repository를 출시합니다. 이것은 에이전트가 Gemma 모델을 사용하여 구축할 수 있도록 특별히 설계된 스킬 라이브러리입니다.
원하는 방식으로 배포: Google Cloud를 사용하여 프로덕션 환경의 엔드포인트를 구동하세요.

Gemini Enterprise Agent Platform Model Garden, Cloud Run, 그리고 GKE를 통해 배포할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Gemma 4 12B 소개: 통합된 인코더 프리 (encoder-free) 멀티모달 모델

요약

핵심 포인트

최첨단 에이전트를 로컬에서 실행하기

독특하게 효율적인 통합 아키텍처를 경험하세요

지금 바로 시작하세요

지금 바로 시작하세요

댓글