Gemma: Google의 오픈 모델을 위한 개발자 가이드

Gemma는 Google의 오픈 웨이트 (open-weight) AI 모델 제품군이며, Gemma 4는 최신 세대로서 프런티어 수준의 추론 (reasoning), 멀티모달 (multimodal) 입력, 그리고 휴대폰부터 서버 클러스터에 이르기까지 모든 환경에서 실행 가능한 에이전트 (agentic) 역량을 제공하며, 모두 Kaggle Models를 통해 다운로드할 수 있습니다.

Gemma란 무엇인가?

Gemma는 Google DeepMind가 독점적인 Gemini 모델의 기반이 된 것과 동일한 연구 및 기술을 사용하여 구축한 경량 오픈 웨이트 (open-weight) 생성형 AI 모델 제품군입니다.

고급 추론 (Advanced reasoning): 다단계 계획 (multi-step planning) 및 심층 논리 (deep logic)를 갖추었으며, 수학 및 지시 이행 (instruction-following) 벤치마크에서 큰 성능 향상을 보임.
에이전트 워크플로우 (Agentic workflows): 도구를 사용하는 자율 에이전트 (autonomous agents) 구축을 위한 네이티브 함수 호출 (function-calling), 구조화된 JSON 출력, 그리고 시스템 지침 (system instructions) 지원.
코드 생성 (Code generation): 강력한 오프라인 코딩 지원을 통해 워크스테이션을 로컬 AI 코드 어시스턴트로 변환.
비전 및 오디오 (Vision and audio): 모든 모델이 다양한 해상도로 비디오와 이미지(OCR, 차트 이해)를 처리하며, E2B/E4B 모델은 음성 인식을 위한 네이티브 오디오 입력도 처리함.
더 긴 컨텍스트 (Longer context): 엣지 (edge) 모델에서 128K 토큰, 더 큰 모델에서는 최대 256K 토큰을 지원하여, 한 번의 프롬프트로 전체 코드베이스나 긴 문서를 전달하기에 충분함.
140개 이상의 언어를 네이티브로 지원.
새로운 MoE 아키텍처 (New MoE architecture): 26B 모델은 빠른 토큰 처리량을 위해 추론당 3.8B 파라미터만 활성화하는 반면, 31B 밀집 (dense) 모델은 미세 조정 (fine-tuning)을 위한 원시 품질을 극대화함 youtube
제한 없는 상업적 이용을 위해 기존의 커스텀 Gemma 라이선스를 대체하는 Apache 2.0 라이선스 적용 youtube

Gemma 4로 무엇이 가능한가?

Gemma 4는 추론, 도구 호출 (tool-calling), 멀티모달리티 (multimodality), 그리고 긴 컨텍스트를 오픈 모델에 결합했기 때문에, 이전에는 폐쇄형 프런티어 (closed frontier) API에만 국한되었던 작업들을 가능하게 합니다.

AICore를 사용하여 Android 또는 엣지 하드웨어에서 완전히 오프라인인 AI 에이전트를 구축할 수 있으며, 이는 Gemini Nano를 향한 하위 호환성을 제공함.
단일 80GB H100 GPU에서 26B 또는 31B 모델을 미세 조정 (fine-tune)하여 특정 도메인(예: 핀테크 문서 파싱)에 특화할 수 있음.
스캔된 문서, 차트 또는 영수증(OCR)을 읽고 프로그래밍 방식으로 조치하는 멀티모달 파이프라인을 실행할 수 있음.
취약한 프롬프트 파싱 대신 구조화된 함수 호출 (function-calling)을 통해 사용자의 API를 호출하는 에이전트형 백엔드 서비스를 배포할 수 있음.
단일 256K 토큰 컨텍스트 창 내에서 긴 로그, 계약서 또는 전체 리포지토리를 처리할 수 있음.

Gemma 4의 실제 활용 사례

Google은 Gemma 제품군을 기반으로 이미 구축된 구체적인 배포 사례를 강조하며, 핀테크(fintech) 및 물류(logistics) 도메인으로 전이 가능한 패턴을 보여줍니다.

INSAIT는 Gemma를 미세 조정(fine-tuned)하여 불가리아어 우선 언어 모델인 BgGPT를 제작했으며, 이는 지역/현지 언어 미세 조정이 Gemma에서 어떻게 잘 작동하는지를 보여줍니다.
Yale University는 새로운 암 치료 경로를 발견하기 위해 Gemma를 기반으로 Cell2Sentence-Scale을 구축하였으며, 이는 과학/도메인 특화 미세 조정(domain-specific fine-tuning)의 사례를 보여줍니다.
Google Pixel, Qualcomm, MediaTek은 스마트폰 및 NVIDIA Jetson Orin Nano와 같은 IoT 기기에서 E2B/E4B를 완전히 오프라인으로 실행할 수 있도록 협력했습니다. 이는 귀하의 Atoovis 경험을 고려할 때 물류 추적 장치나 드론 기반 시스템에 유용합니다.
개발자들은 Android Studio의 에이전트 모드(Agent Mode)와 ML Kit GenAI Prompt API를 사용하여 프로덕션 앱을 위한 에이전트형(agentic) Android 앱을 구축하고 있습니다.

Gemma 4 시작하기

Gemma 4를 직접 다루는 것은 귀하의 기존 AWS/Ubuntu/PM2 스택에 자연스럽게 통합됩니다.

대상 플랫폼에 따라 모델 크기를 선택하세요 — 모바일/에지(edge)용은 E2B/E4B, 데스크톱 또는 소형 서버용은 12B/A4B, 대형 서버용은 31B를 권장합니다 ai.google
Kaggle Models, Hugging Face 또는 Ollama에서 가중치(weights)를 다운로드하세요 developers.googleblog
로컬 설정 없이 Google AI Studio(31B/26B용) 또는 Google AI Edge Gallery(E4B/E2B용)에서 즉시 프로토타입을 제작하세요 developers.googleblog
선호하는 런타임(runtime)을 사용하여 로컬에서 서빙하세요 — Ollama, vLLM, llama.cpp 또는 LM Studio 모두 출시 첫날부터 지원됩니다.
경량 튜닝을 위해 Keras와 LoRA를 사용하는 Colab 노트북을 사용하거나, 더 큰 모델의 경우 분산 학습(distributed training) 노트북을 사용하여 미세 조정(fine-tune)하세요.
Google Cloud의 Vertex AI, Cloud Run 또는 GKE를 통해 프로덕션에 배포하거나, 귀하의 현재 핀테크 배포 패턴을 반영하여 PM2 프로세스 관리와 함께 EC2에 셀프 호스팅하세요.

초보자가 피해야 할 흔한 실수

하드웨어 제약 사항을 확인하기 전에 모델 크기를 선택하는 것 — 31B dense 모델은 80GB급 GPU가 필요하지만, E2B/E4B는 휴대폰 및 에지 보드 (edge boards)를 위해 설계되었습니다.
모든 Gemma 4 변체 (variants)가 동일한 모달리티 (modalities)를 지원한다고 가정하는 것 — E2B/E4B와 달리 31B 및 A4B 모델은 네이티브 오디오 (native audio) 없이 텍스트와 이미지만 처리합니다.
로컬 배포 시 양자화 (quantization)를 건너뛰는 것 — 소비자용 GPU에서 양자화되지 않은 bfloat16 가중치를 실행하면 불필요하게 메모리 제한에 걸리게 됩니다.
이전 Gemma 세대의 더 제한적인 커스텀 라이선스 약관과 Gemma 4의 Apache 2.0 라이선스를 혼동하는 것 (이전 튜닝 가이드를 재사용할 때 발생).
Gemma를 Gemini API의 즉각적인 대체제로 취급하는 것 — 이는 관리형 API 호출이 아니라, 자체적인 추론 인프라 (inference infrastructure)와 모니터링이 필요한 셀프 호스팅 모델입니다.
메모리 필요량을 추정할 때 유효 파라미터 (effective parameters)와 총 파라미터 (total parameters)의 차이(예: E4B)를 무시하는 것 — 추론 중 실제 RAM 사용량은 표시된 파라미터 수와 다르기 때문입니다.

리소스 및 학습 자료

Kaggle Models — Gemma 4 가중치(weights)를 다운로드하고 Gemmaverse의 커뮤니티 변형 모델들을 찾아보세요 ai.google
Google AI for Developers docs — 공식 모델 개요, 아키텍처(architecture) 상세 정보 및 시작 가이드 ai.google
Hugging Face Gemma 4 collection — 모델 카드(model cards), Transformers/TRL 통합 및 커뮤니티 미세 조정(fine-tunes) 모델 huggingface
Google DeepMind Gemma 페이지 — 출시 공지 및 벤치마크(benchmark) 업데이트 deepmind
Kaggle의 "Gemma 4 Good" 챌린지 — Gemma 4를 사용하여 실제 사회적 영향력을 가진 제품을 구축하는 경진대회 developers.googleblog
Google Colab 노트북 — 추론(inference) (Keras, PyTorch) 및 LoRA 미세 조정(fine-tuning)을 위한 기성 노트북 ai.google

Gemma 4에 대한 FAQ

Gemma 4를 상업적으로 무료로 사용할 수 있나요?
네, Gemma 4는 Apache 2.0 라이선스 하에 출시되었으며, 이는 이전 버전의 Gemma 라이선스가 가졌던 제한적인 조건 없이 상업적 이용을 허용합니다.

Gemma 4를 실행하려면 어떤 하드웨어가 필요한가요?
모델 크기에 따라 다릅니다: E2B/E4B는 스마트폰, Raspberry Pi, Jetson Orin Nano에서 실행됩니다; 12B/A4B는 노트북과 소규모 서버에 적합합니다; 31B 및 26B 모델은 단일 80GB H100 GPU에 적합하며, 소비자용 GPU를 위한 양자화(quantized) 버전도 제공됩니다.

Gemma 4는 오디오와 비디오를 지원하나요?
E2B 및 E4B 모델은 텍스트 및 이미지와 함께 네이티브 오디오 입력을 지원합니다; 모든 Gemma 4 모델은 가변 해상도로 비디오와 이미지를 처리합니다.

핀테크와 같은 저만의 특정 도메인을 위해 Gemma 4를 미세 조정(fine-tune)할 수 있나요?
네 — Google은 Keras를 통한 LoRA 튜닝 노트북과 더 큰 모델을 위한 분산 학습(distributed training) 노트북을 제공하며, INSAIT 및 Yale과 같은 기관들은 이미 전문화된 도메인을 위해 Gemma를 미세 조정했습니다.

Gemma 4는 어디에서 다운로드할 수 있나요?
모델 가중치 (Model weights)는 Kaggle Models, Hugging Face, 그리고 Ollama에서 사용할 수 있으며, vLLM, llama.cpp, LM Studio와 같은 도구에서 출시 당일부터 지원됩니다.

Gemma 4는 Gemini와 어떻게 비교되나요?
Gemma 4는 Gemini 3와 동일한 연구를 바탕으로 구축되었지만, 오픈 가중치 (open-weight) 모델로서 자체 호스팅 (self-hosted)이 가능한 반면, Gemini는 독점적인 관리형 API (proprietary, managed API)로 유지됩니다. 즉, 두 모델은 서로를 보완하도록 설계되었습니다.

Insights