본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 04. 15:14

Google, 노트북에서 실행 가능한 인코더 프리 (Encoder-Free) 멀티모달 모델 출시

요약

Google이 인코더 없이 원시 입력을 직접 처리하는 Gemma 4 12B 모델을 출시했습니다. 기존 멀티모달 모델과 달리 별도의 인코더를 사용하지 않아 메모리 오버헤드와 추론 지연 시간을 획기적으로 줄였습니다.

핵심 포인트

  • 인코더 프리 아키텍처로 메모리 사용량 절반 감소
  • 시각 및 오디오 데이터를 LLM 백본으로 직접 투영
  • 12B 파라미터로 26B MoE 모델에 근접하는 성능 달성
  • 노트북 환경에서도 실행 가능한 효율적인 멀티모달 구현

Google, 노트북에서 실행 가능한 인코더 프리 (Encoder-Free) 멀티모달 모델 출시

Google은 어제 Gemma 4 12B를 출시했습니다. 이 모델은 몇 시간 만에 Hacker News에서 1위를 차지했으며, 그 이유는 단순히 "또 다른 모델 출시"이기 때문만이 아닙니다. 이 아키텍처는 10-15B 파라미터(parameter) 범위 내의 다른 어떤 것과도 진정으로 다릅니다.

전통적인 멀티모달 (multimodal) 모델은 각 입력 유형에 대해 별도의 인코더 (encoder)를 사용합니다. 시각 정보는 ViT 또는 CLIP을 거칩니다. 오디오는 Whisper 또는 HuBERT를 통해 실행됩니다. 그런 다음 그 모든 인코딩된 표현 (encoded representations)이 LLM 백본 (backbone)으로 전달됩니다. 이는 작동하지만 낭비적입니다. 모든 인코더는 메모리 오버헤드 (memory overhead)와 추론 지연 시간 (inference latency)을 추가합니다.

Gemma 4 12B는 모든 인코더를 버렸습니다.

Gemma 4 encoder-free architecture vs traditional multimodal models

전통적인 멀티모달 모델 (상단)은 시각 및 오디오를 위해 별도의 인코더에 의존합니다. Gemma 4 12B (하단)는 원시 입력 (raw inputs)을 LLM 백본으로 직접 전달합니다.

인코더 프리 (Encoder-Free) 아키텍처의 작동 방식

파이프라인은 매우 단순합니다:

  • 텍스트 (Text): 표준 토크나이저 (tokenizer) → LLM 백본. 여기서는 변하는 것이 없습니다.
  • 시각 (Vision): 단일 행렬 곱셈 (matrix multiplication)이 전체 ViT 시각 인코더를 대체합니다. 이미지 임베딩 (image embedding)이 LLM으로 직접 전달됩니다.
  • 오디오 (Audio): 훨씬 더 간단합니다. 원시 오디오 신호 (raw audio signal)가 텍스트 토큰과 동일한 차원의 공간으로 투영 (projected)됩니다. Whisper도, HuBERT도 없습니다. 오직 투영 레이어 (projection layer)만 존재합니다.

LLM 백본은 훈련 과정에서 모든 모달리티 (modalities)를 네이티브하게 처리하는 법을 학습합니다. 인코더를 위한 별도의 사전 훈련 (pre-training)도, 모달리티 간의 브릿징 레이어 (bridging layers)도 없습니다. 모든 것을 처리하는 단 하나의 통합된 모델만 있을 뿐입니다.

이것은 단순히 비용 절감을 위한 속임수가 아닙니다. 벤치마크 (benchmarks)에 따르면 Gemma 4 12B는 메모리를 절반도 사용하지 않으면서 추론 작업에서 Google 자체의 26B MoE 모델의 성능에 근접하는 모습을 보여줍니다.

벤치마크: 체급을 뛰어넘는 12B 모델

Gemma 4 12B benchmark comparison against the 26B MoE model

Gemma 4 12B는 파라미터(Parameters) 수가 절반 미만임에도 불구하고, 추론 벤치마크 전반에서 26B Mixture of Experts (MoE) 모델에 근접하는 성능을 보여줍니다.

수치는 명확한 이야기를 들려줍니다:

벤치마크 (Benchmark)Gemma 4 12BGemma 4 26B MoE격차 (Gap)
MMLU-Pro75.2%78.1%-2.9%
...

모든 벤치마크에서 격차는 일관되게 4퍼센트 포인트 미만입니다. 16GB 통합 메모리(Unified Memory)를 가진 소비자용 노트북에 탑재 가능한 모델이라는 점을 고려하면, 이는 매우 유의미한 결과입니다.

로컬 실행 (Running It Locally)

Gemma 4 12B는 별도의 복잡한 절차 없이 기존의 추론 스택(Inference Stacks)에 바로 통합됩니다. Ollama를 사용하는 방법은 다음과 같습니다:

ollama pull gemma4:12b
ollama run gemma4:12b

이미지를 처리하고 싶으신가요? 직접 전달하면 됩니다:

import ollama

response = ollama.chat(
...

별도의 비전 모델(Vision Model) 호출이 필요 없습니다. CLIP 전처리(Pre-processing)도 필요하지 않습니다. 동일한 모델이 단 한 번의 순전파(Forward Pass) 과정에서 텍스트와 이미지를 모두 처리합니다.

프로덕션 환경을 위해 이 모델은 Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, 그리고 Google Cloud Vertex AI 등 생태계 전반에서 지원됩니다. 미세 조정(Fine-tuning)은 Unsloth를 통해 수행할 수 있습니다.

멀티 토큰 예측 드래프터 (Multi-Token Prediction Drafters)

Gemma 4 12B에는 멀티 토큰 예측 (Multi-Token Prediction, MTP) 드래프터가 탑재되어 있습니다. 이는 자기회귀 지연 시간(Autoregressive Latency)을 줄이기 위해 단계당 여러 개의 토큰을 예측하는 기술입니다:

# 표준 LLM: 한 번에 하나의 토큰을 예측
# "The cat sat on the" → "mat" → "."
# 2번의 순전파 (Forward Passes)
...

드래프터는 모델 가중치(Weights)에 직접 내장된 경량 투기적 디코딩 (Speculative Decoding) 메커니즘 역할을 합니다. 관리해야 할 별도의 드래프트 모델도, 복잡한 서빙 인프라도 필요하지 않습니다. 추론 시 지연 시간 감소 효과를 무료로 얻을 수 있습니다.

이는 헤드라인을 장식하지는 않지만, 실제 애플리케이션에서는 벤치마크 점수보다 더 중요한 기능 중 하나입니다. 낮은 지연 시간은 더 빠른 에이전트 루프(Agent Loops), 더 빠른 도구 호출(Tool Calls), 그리고 더 매끄러운 채팅 경험을 의미합니다.

개발자에게 변화하는 점

세 가지 실질적인 영향:

1. 복잡성 비용(Complexity Tax) 없는 멀티모달 앱. 현재의 멀티모달 스택은 취약합니다. 비전 모델(Vision Model), 오디오 모델(Audio Model), 그리고 LLM을 각각 실행하며, 각 모델은 자신만의 추론 파이프라인(Inference Pipeline), 메모리 점유율(Memory Footprint), 그리고 고유한 실패 모드(Failure Modes)를 가집니다. Gemma 4 12B는 이 모든 것을 단 한 번의 모델 호출(Model Call)로 통합합니다.

2. 실제 워크로드에 대한 로컬 우선(Local-first) AI의 실현 가능성. 16GB RAM에서 구동되는 12B 모델은 이전에는 클라우드 추론(Cloud Inference)이 필요했던 오프라인 우선(Offline-first) 및 개인정보 보호가 중요한 애플리케이션의 길을 열어줍니다. 온디바이스 문서 분석, 이미지 이해를 포함한 로컬 코드 리뷰, 추론 기능이 포함된 오프라인 회의 전사(Transcription) 등이 모두 여러분이 이미 소유한 노트북에서 가능해집니다.

3. 더 낮은 지연 시간(Latency)을 가진 에이전트 워크플로(Agentic Workflows). 인코더 프리 추론(Encoder-free Inference, 단계별 인코더 오버헤드 없음)과 MTP Drafters(더 적은 순전파(Forward Passes))의 결합은 에이전트 루프(Agent Loops)가 엔드 투 엔드(End-to-end)로 더 빠르게 실행됨을 의미합니다. 만약 에이전트가 작업을 완료하는 데 5단계가 필요하고 각 단계에서 200ms를 절약한다면, 작업당 총 1초를 절약하는 셈입니다.

# 이전: 별도의 비전 호출을 사용하는 에이전트 루프
# 1단계: 스크린샷 확인 → 비전 모델 호출 → 설명 획득 (500ms)
# 2단계: 설명 → LLM 호출 → 액션 획득 (300ms)
...

부족한 점

Gemma 4 12B에는 내장된 비전 인코더(Vision Encoder)가 포함되어 있지 않으므로, OCR(광학 문자 인식)이나 정밀한 문서 파싱(Dense Document Parsing)과 같은 미세한 작업에서는 전용 비전 모델과 대등한 성능을 내지 못할 수 있습니다. 그러한 워크로드의 경우에는 여전히 특화된 모델이 필요할 것입니다.

하지만 다이어그램 이해, UI 스크린샷 읽기, 문맥 내 시각 데이터 추론과 같은 광범위한 중간 영역(Broad Middle)에서는 인코더 프리(Encoder-free) 방식이 잘 작동합니다. 트레이드오프(Trade-off)는 명확합니다. 시각적 정밀도는 약간 낮아지지만, 복잡성은 극적으로 낮아집니다.

더 큰 패턴

인코더 프리(Encoder-free) 아키텍처는 새로운 것이 아닙니다. LLM은 지난 2년 동안 모달리티별 구성 요소(Modality-specific Components)를 흡수해 왔습니다. Gemma 4 12B가 다른 점은, 중간 크기(Mid-size) 범위의 오픈 웨이트(Open-weight) 모델 중 완전히 인코더 프리 방식을 채택하고 실제로 우수한 벤치마크 성능을 보여주는 첫 번째 모델이라는 점입니다.

Google은 또한 모델과 함께 공식 Skills Repository를 출시했습니다. 이는 Gemma 모델을 위해 특별히 설계된 사전 구축된 에이전트 기술(agent skills) 라이브러리입니다. Apache 2.0 라이선스와 함께, 이 모델이 단순한 연구용 데모가 아니라는 메시지는 명확합니다. 이는 기반 기술로 활용될 수 있도록 만들어졌습니다.

모델 웨이트(weights)는 Hugging Face와 Kaggle에 공개되어 있습니다. 개발자 가이드는 ai.google.dev에서 확인할 수 있습니다. 서버 랙(server rack)이 필요 없는 멀티모달 모델을 기다려 오셨다면, 바로 이 모델을 시도해 보시기 바랍니다.

Google DeepMind의 공식 Gemma 4 12B 출시 관련 벤치마크 데이터. 다이어그램은 gpt-image-2로 생성되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0