Gemma 3n이 오픈 소스 생태계에서 완전히 사용 가능해졌습니다!
요약
Google이 온디바이스 환경에 최적화된 멀티모달 대규모 언어 모델(LLM)인 Gemma 3n을 오픈 소스 생태계에 공개했습니다. 이 모델은 이미지, 텍스트, 오디오, 비디오 입력을 모두 지원하며, 특히 메모리 효율성을 극대화하여 실제 파라미터 수보다 훨씬 적은 VRAM으로 구동할 수 있는 것이 특징입니다. Gemma 3n은 transformers, llama.cpp, ollama 등 주요 오픈 소스 라이브러리에 즉시 통합되어 사용 가능합니다.
핵심 포인트
- **온디바이스 최적화 및 멀티모달 지원:** Gemma 3n은 이미지, 텍스트, 오디오, 비디오를 모두 처리할 수 있도록 설계되었으며, 로컬 하드웨어 구동에 초점을 맞췄습니다.
- **효율적인 메모리 사용량 (Effective Parameters):** 실제 파라미터 수는 높지만(5B/8B), Per-Layer Embeddings(PLE) 및 기타 최적화를 통해 각각 2B/4B 수준의 VRAM만 필요로 합니다.
- **다양한 오픈 소스 통합:** transformers, llama.cpp, ollama 등 업계 표준 라이브러리에 공식적으로 지원되어 접근성이 매우 높습니다.
- **고성능 인코더 탑재:** Vision Encoder(MobileNet-v5)와 Audio Encoder(USM 기반)를 포함하여 다양한 모달리티의 입력 처리가 가능합니다.
preview를 통해 Google I/O에서 공개되었습니다. 온디바이스(on-device) 커뮤니티는 이 모델이 처음부터 하드웨어에서 로컬로 실행되도록 설계되었다는 점에 매우 흥분했습니다. 게다가, 이미지, 텍스트, 오디오, 비디오 입력을 지원하는 네이티브하게 멀티모달(multimodal) 기능을 갖추고 있습니다 🤯
오늘 Gemma 3n은 가장 많이 사용되는 오픈 소스 라이브러리에서 마침내 사용할 수 있게 되었습니다. 여기에는 transformers & timm, MLX, llama.cpp (텍스트 입력), transformers.js, ollama, Google AI Edge 등이 포함됩니다.
본 게시물에서는 이러한 라이브러리들을 사용하여 모델을 사용하는 방법과 다른 도메인에 맞게 파인튜닝(fine-tune)하는 것이 얼마나 쉬운지를 보여주는 실용적인 코드 스니펫(snippets)을 빠르게 안내합니다.
여기에 Gemma 3n 출시 컬렉션이 있습니다.
오늘 두 가지 모델 크기가 각각 두 가지 변형(base 및 instruct)과 함께 출시되었습니다. 모델 이름은 비표준 명명법을 따릅니다: gemma-3n-E2B와 gemma-3n-E4B로 불립니다. 매개변수 개수 앞에 붙는 E는 'Effective'를 의미합니다. 실제 매개변수 개수는 각각 5B와 8B이지만, 메모리 효율성 개선 덕분에 VRAM(GPU memory)에서 2B 및 4B만 필요로 합니다.
따라서 이 모델들은 하드웨어 지원 측면에서는 2B 및 4B처럼 작동하지만, 품질 면에서는 2B/4B를 뛰어넘는 성능을 발휘합니다. E2B 모델은 최소 2GB의 GPU RAM에서 실행할 수 있으며, E4B는 단지 3GB의 GPU RAM으로도 실행할 수 있습니다.
| 크기 | Base | Instruct |
|---|---|---|
| 2B | google/gemma-3n-e2b | google/gemma-3n-e2b-it |
| 4B | google/gemma-3n-e4b | google/gemma-3n-e4b-it |
언어 디코더 외에도 Gemma 3n은 **오디오 인코더(audio encoder)**와 **비전 인코더(vision encoder)**를 사용합니다. 주요 기능과 이들이 transformers 및 timm에 어떻게 추가되었는지 아래에서 강조하고 설명하며, 이 두 라이브러리가 다른 구현의 참조가 됩니다.
Vision Encoder (MobileNet-V5). Gemma 3n은 새로운 버전의 MobileNet인 MobileNet-v5-300을 사용하며, 이는 오늘 출시된 timm의 새 버전에 추가되었습니다. - 매개변수 3억 개(300M)의 기능을 제공합니다.
- 해상도
256x256,512x512, 및768x768을 지원합니다. - Google Pixel에서 60 FPS를 달성하며, 매개변수를 3배 적게 사용하면서 ViT Giant보다 우수한 성능을 보여줍니다.
Audio Encoder:- Universal Speech Model (USM)을 기반으로 합니다.- 오디오를 160ms 청크로 처리합니다. - 음성 인식(speech-to-text) 및 번역 기능(예: 영어에서 스페인어/프랑스어)을 가능하게 합니다.
Gemma 3n 아키텍처와 언어 모델. 아키텍처 자체는 오늘 출시된 transformers의 새 버전에 추가되었습니다. 이 구현은 이미지 인코딩을 위해 timm으로 분기되므로, 단일 참조가 존재합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기