본문으로 건너뛰기

© 2026 Molayo

DeepMind헤드라인2026. 04. 23. 23:32

온디바이스 AI의 새 지평: Gemma 3n 개발자 가이드

요약

Gemma 모델은 이미 커뮤니티를 통해 폭발적인 성장을 거듭하며 다양한 분야에 활용되고 있습니다. 이를 기반으로, 온디바이스 AI 성능을 혁신적으로 끌어올린 'Gemma 3n'이 전격 공개되었습니다. Gemma 3n은 모바일 환경에 최적화된 아키텍처를 채택했으며, 핵심 기술로 MatFormer (Matryoshka Transformer)와 Per-Layer Embeddings (PLE)를 도입했습니다. 이 덕분에 클라우드급 성능을 온디바이스에서 구현할 수 있게 되었으며, 개발자는 E4B 및 E2B 모델 외에도 'Mix-n-Match

핵심 포인트

  • Gemma 3n은 모바일 환경에 최적화된 아키텍처를 통해 온디바이스 AI 성능을 대폭 향상시켰습니다.
  • 핵심 기술인 MatFormer는 큰 모델 안에 작은 모델이 포함되는 '마트료시카' 구조로, 다양한 크기의 커스텀 모델 생성을 가능하게 합니다.
  • Per-Layer Embeddings (PLE) 덕분에 메모리 효율성이 높아져 제한된 온디바이스 장치에서도 고성능 연산이 가능합니다.
  • KV Cache Sharing 기능은 스트리밍 응답의 초기 처리 속도(prefill)를 획기적으로 개선하여 실시간 애플리케이션에 적합합니다.

Gemma 모델 생태계는 이미 커뮤니티의 혁신을 통해 폭발적인 성장을 이루었습니다. 이러한 모멘텀을 이어받아, 온디바이스 AI 성능을 한 단계 끌어올린 'Gemma 3n'이 전격 공개되었습니다.

Gemma 3n은 개발자 친화적인 설계로, Hugging Face Transformers, llama.cpp 등 다양한 도구에서 쉽게 파인튜닝 및 배포할 수 있습니다. 이 모델의 핵심은 모바일 환경에 최적화된 아키텍처를 통해 기존 클라우드 기반 모델 수준의 강력한 성능을 온디바이스 장치에서도 구현했다는 점입니다.

성능 혁신의 중심에는 **MatFormer (🪆Matryoshka Transformer)**라는 독특한 구조가 있습니다. 이는 큰 트랜스포머 안에 작은 버전이 포함된 '마트료시카 인형' 같은 개념으로, 모델의 크기 조절을 용이하게 합니다.

개발자는 이 MatFormer를 활용하여 최고 성능의 E4B 모델뿐만 아니라, 추론 속도가 2배 빠른 독립적인 E2B 서브모델도 사용할 수 있습니다. 나아가 'Mix-n-Match' 기법을 통해 필요한 하드웨어 제약에 맞춰 E2B와 E4B 사이의 커스텀 사이즈 모델 스펙트럼을 정밀하게 생성할 수 있습니다.

또한, Per-Layer Embeddings (PLE) 기술은 온디바이스 배포를 위해 설계되었으며, 메모리 사용량을 크게 늘리지 않으면서도 모델 품질을 향상시킵니다. 이 덕분에 핵심 가중치만 제한된 액셀러레이터 메모리에 로드하여 효율성을 극대화합니다.

스트리밍 응답에 필수적인 KV Cache Sharing 기능은 초기 입력 처리 단계(prefill)의 속도를 획기적으로 개선했습니다. 이를 통해 장문의 프롬프트도 이전보다 훨씬 빠르게 이해하고 처리할 수 있습니다. 마지막으로, Universal Speech Model (USM) 기반의 오디오 인코더가 통합되어 온디바이스 멀티모달 애플리케이션 개발에 큰 잠재력을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Google DeepMind의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0