Google, Gemma 4 12B 출시: 인코더 프리 멀티모달 프로젝션 (Encoder-Free Multimodal Projection)

무엇인가 (What): Google은 Gemma 4 12B를 출시했습니다. 이 오픈 멀티모달 모델의 핵심 기술은 **인코더 프리 멀티모달 프로젝션 (encoder-free multimodal projection)**입니다. 이는 이미지와 오디오를 전용 인코더 네트워크(dedicated encoder network)를 통해 처리하는 대신, 토큰 공간(token space)으로 직접 투영하여 토큰으로 변환합니다.

이유 (Why): 대부분의 멀티모달 모델이 탑재하고 있는 별도의 비전 및 오디오 인코더는 언어 모델이 무언가를 보기 전에 추가적인 파라미터(parameters), 연산량(compute), 지연 시간(latency)을 발생시킵니다. 이를 제거한 것이 12B 모델이 16 GB 메모리 내에서 사진과 소리를 모두 처리할 수 있는 큰 이유입니다.

이전 방식과의 차이 (vs prior): **고정된 비전 트랜스포머 (frozen vision transformer, ViT)**와 텍스트 모델에 결합된 프로젝터(projector)를 사용하는 표준 방식과 비교했을 때, Gemma 4 12B는 별도의 인코더가 전혀 없습니다. 각 이미지 패치(image patch)는 백본(backbone)으로 직접 연결되는 **단 한 번의 행렬 곱 (one matrix multiply)**을 통해 토큰이 됩니다.

다음과 같이 생각해보세요

손님들이 통역사를 거치거나, 혹은 직접 그 언어로 말하는 회의와 같습니다.

              IMAGE / AUDIO ARRIVES
                       │
        ┌──────────────┴──────────────┐
...

텍스트 토큰 (text token) = 이미 회의실의 언어를 구사하는 손님
비전/오디오 인코더 (vision/audio encoder) = 기존 방식에서 이미지와 소리를 전달하기 위해 거쳐야 했던 별도의 통역사
인코더 프리 프로젝션 (encoder-free projection) = 비전과 오디오를 회의실의 언어로 직접 변환하는 단 한 번의 행렬 곱
공유 토큰 공간 (shared token space) = 일단 회의실에 들어오면 모든 손님이 사용하는 단일 언어

빠른 용어 사전

인코더 프리 (Encoder-free, VLM) — 텍스트 이외의 입력을 위한 별도의 인코더가 없는 멀티모달 모델입니다. 이미지를 비전 네트워크에 먼저 통과시키는 대신, 원시 입력(raw input)을 모델의 토큰 공간으로 직접 투영합니다. 이 계보는 Fuyu 및 EVE와 같은 연구 모델들로 이어집니다.

비전 인코더 (Vision encoder) / ViT — 비전 트랜스포머 (Vision Transformer) — 이미지를 특징 벡터(feature vectors)로 변환하는 어텐션(attention) 및 MLP 레이어의 스택입니다. 일반적인 방식에서는 언어 모델 앞단에 두 번째 네트워크로 위치하지만, 인코더 프리 설계에서는 이를 삭제합니다.

패치 (Patch) — 이미지는 작은 정사각형 격자(예: 16×16 픽셀)로 잘립니다. 각 **패치 (patch)**는 가공되지 않은 숫자 리스트로 평탄화(flattened)되어 하나의 입력 단위, 즉 텍스트 토큰(token)에 상응하는 시각적 단위로 취급됩니다.

프로젝션 (Projection) — 한 크기의 벡터를 다른 크기의 벡터로 매핑하는 **단일 행렬 곱 (single matrix multiply)**입니다. 여기서는 평탄화된 이미지 패치를 단어의 임베딩 (embedding)과 동일한 너비를 가진 벡터로 매핑합니다. 따라서 그 결과물 자체가 하나의 토큰 (token)이 되며, 오디오 또한 동일한 공간으로 접혀 들어갑니다.

토큰 / 임베딩 공간 (Token / embedding space) — 트랜스포머 (transformer)는 단어나 픽셀을 읽는 것이 아니라 **밀집 벡터 (dense vectors)**를 읽습니다. "임베딩 공간 (embedding space)"은 모든 입력이 반드시 도달해야 하는 공유된 벡터 형식입니다. 이미지와 오디오를 이 공간에 배치함으로써 하나의 백본 (backbone)이 세 가지 형태를 모두 읽을 수 있게 됩니다.

네이티브 오디오 (Native audio) — 별도의 음성 모델을 통해 먼저 텍스트로 전사(transcribe)하는 대신, 모델 내부에서 토큰으로서 처리되는 오디오를 의미합니다. Gemma 4 12B는 오디오를 네이티브하게 받아들이는 첫 번째 중간 크기 (mid-sized) Gemma 모델입니다.

뉴스. 2026년 6월 3일, Google은 대부분의 멀티모달 (multimodal) 모델들이 별도로 장착하는 비전 및 오디오 인코더 (encoder)를 제거한 Apache-2.0 모델인 Gemma 4 12B를 출시했습니다. 대신 이 모델은 두 종류의 입력을 언어 백본 (language backbone)으로 직접 프로젝션합니다. 비전은 경량 모듈(보도에 따르면 단일 행렬 곱과 위치 및 정규화 항으로 구성됨)을 통해 투영되며, 오디오는 텍스트 토큰과 동일한 차원의 공간으로 투영됩니다. 이는 네이티브 오디오 입력을 지원하는 첫 번째 중간 크기 Gemma 모델로, 16GB의 VRAM 또는 통합 메모리에서 실행 가능하며, Google의 더 큰 26B Mixture-of-Experts 모델에 근접한 점수를 기록하는 것으로 알려졌습니다. 공지사항 읽기 →

회의 장면을 상상해 보세요. 텍스트 프롬프트(text prompt)는 이미 그 방의 언어를 구사하는 손님과 같습니다. 들어오자마자 바로 말을 시작하죠. 하지만 사진이나 음성 클립은 그렇지 않습니다. 일반적인 해결 방식은 각 매체마다 별도의 통역사를 고용합니다. 즉, 모든 것을 듣고 다시 목소리로 변환하여 손님이 참여할 수 있게 해주는 별도의 두 번째 직원을 두는 것입니다. 이 통역사들이 바로 모델의 **비전 및 오디오 인코더 (vision and audio encoders)**입니다. 언어 모델이 무엇인가를 보기 전에 실행되는 추가적인 네트워크들입니다. Gemma 4 12B는 이 통역사들을 해고합니다. 대신 사진과 소리가 방의 언어를 한 번의 빠른 단계로 직접 말할 수 있도록 학습시켜, 텍스트, 이미지, 오디오라는 모든 손님이 일반적인 **토큰 (token)**과 동일한 테이블에 앉을 수 있게 합니다.

이 비유의 이면에서 "방의 언어를 말한다"는 것은 모델의 임베딩 공간 (embedding space) — 즉, 트랜스포머 (transformer)가 실제로 소비하는 밀집 벡터 (dense vectors) — 에 안착한다는 것을 의미합니다. 토큰 ID는 룩업 (lookup)을 통해 벡터가 되고, 이미지 패치 (image patch)는 프로젝션 (projection)을 통해 벡터가 됩니다. 간단한 예로, 256×256 이미지를 16×16 패치로 나누면 256개의 패치를 얻게 되며, 각 패치는 16·16·3 = 768개의 원시 숫자(raw numbers)로 이루어진 평탄한 리스트가 됩니다. 기존 방식은 LLM이 단 하나의 특징 (feature)을 얻기 전에, 이러한 패치들을 비전 트랜스포머 (vision transformer) — 수십 개의 어텐션 (attention) 및 MLP 레이어를 거치게 — 합니다. 반면 Google의 설명에 따르면, Gemma의 인코더 프리 (encoder-free) 경로는 단일 행렬 곱 (single matrix multiply) (여기에 위치 항과 정규화 추가)을 적용하여 각 패치를 단어의 임베딩과 동일한 형태의 토큰으로 즉시 변환합니다. 오디오 또한 동일한 공간으로 프로젝션됩니다. LLM 이전의 전체 인코더 스택은 이 단일 프로젝션으로 축소되며, 백본 (backbone) 자체가 시각 및 음향 처리를 넘겨받게 됩니다.

접근 방식	이미지가 들어오는 방식	별도의 인코더?	비용 프로파일
Encoder-based (ViT + projector)	image → vision transformer (수십 개의 레이어) → projector → tokens	예 — 전체 비전 네트워크가 먼저 실행됨	첫 번째 출력 토큰 이전에 더 많은 파라미터와 지연 시간 발생
Encoder-free (Gemma 4 12B)	patches → 하나의 행렬 곱셈 (+ 위치/정규화) → tokens	별도 인코더 없음	~16 GB, 낮은 사전 디코드 지연 시간 (Google 발표)

인코더 스택을 제거하는 것은 결과가 따르지만, 얻는 이점은 명확합니다. 별도의 비전 타워는 저장해야 하는 파라미터, 실행해야 하는 컴퓨팅 자원, 그리고 첫 번째 출력 토큰 이전에 지불해야 하는 지연 시간입니다. 이를 삭제한 것이 12B 모델이 데이터센터 카드가 필요하지 않은 상태에서 16 GB 내로 이미지와 오디오를 처리할 수 있는 큰 이유이며, 더 작고 단순한 스택임에도 불구하고 Google이 자사의 26B Mixture-of-Experts 모델에 근접한 품질을 주장할 수 있는 부분 중 하나입니다. 단점은 백본(backbone) 자체가 사전 학습된 인코더가 그 작업을 대신해주지 않기 때문에 시각적 및 음향적 구조를 스스로 학습해야 한다는 것입니다 — 이것이 왜 이 모델이 기존 텍스트 모델에 붙이는 비전 어댑터라기보다는 처음부터 이를 위해 훈련된 _12B 모델_로 출시되었는지에 대한 개연성 있는 이유입니다. 단일 행렬 곱셈(single-matmul) 설명 외의 아키텍처 세부 사항은 아직 완전히 문서화되지 않았습니다.

이것이 주는 이점은 '멀티모달'이 실제로 무엇을 요구하는지에 대해 더 명확한 아이디어를 제공합니다. 언어 모델에 맞춤 제작된 눈과 귀를 반드시 부착할 필요는 없습니다. 모든 입력이 동일한 토큰 공간으로 투영될 수 있다면, 하나의 백본만 그것들을 모두 읽을 수 있습니다. Gemma 4 12B는 작고 개방형 모델로서 적당한 하드웨어에서 실행되도록 설계되었기 때문에, 움직이는 부품이 적은 것이 더 무겁고 전문화된 스택보다 낫다는 베팅입니다.

더 깊게 알아보기: LLM Internals → Embeddings → From Token IDs to Vectors

FAQ

인코더 프리 멀티모달 프로젝션 (Encoder-free multimodal projection)이란 무엇인가요?

별도의 비전(Vision) 또는 오디오 인코더(Encoder) 없이 언어 모델을 멀티모달로 만드는 방법입니다. 이미지를 먼저 전용 네트워크에 통과시키는 대신, 모델이 이미지를 패치(Patch)로 나누고 단 한 번의 행렬 곱셈(Matrix multiply)을 통해 각 패치를 토큰으로 변환합니다. 즉, 텍스트 토큰과 동일한 임베딩 공간 (Embedding space)으로 직접 투영(Projecting)하는 방식입니다. 오디오 또한 동일한 방식으로 처리됩니다. 하나의 백본 (Backbone)이 텍스트, 이미지, 오디오 토큰을 하나의 스트림으로 읽어 들입니다.

비전 인코더를 제거하는 것이 왜 중요한가요?

별도의 비전 인코더는 저장해야 할 추가 파라미터(Parameters), 실행해야 할 추가 연산(Compute), 그리고 언어 모델이 첫 번째 토큰을 생성하기 전까지의 추가 지연 시간(Latency)을 의미합니다. 이를 제거함으로써 Gemma 4 12B는 약 16GB의 메모리 내에서 이미지와 네이티브 오디오를 처리할 수 있으며, Google의 더 큰 26B MoE (Mixture-of-experts) 모델에 근접한 품질을 보고할 수 있는 것입니다. 트레이드오프 (Trade-off)는 백본이 시각적 및 음향적 구조를 스스로 학습해야 한다는 점이며, 이것이 이 설계가 단순한 부착형(Bolt-on)이 아닌 해당 용도로 학습된 모델로 출시된 이유입니다.

이것이 GLM-5V와 같은 네이티브 멀티모달 모델과는 어떤 관계가 있나요?

그것들은 서로 다른 질문에 답합니다. "네이티브(Native) 대 비전 결합형(vision-bolted)"은 학습 방식에 관한 것입니다. 즉, 모델이 처음부터 멀티모달(multimodal)이었는지, 아니면 완성된 텍스트 모델에 비전 모듈을 추가했는지에 대한 문제입니다. 반면 "인코더 프리(Encoder-free)"는 아키텍처(architecture)에 관한 것입니다. 별도의 인코더 네트워크(encoder network)가 존재하는지, 아니면 입력값이 토큰 공간(token space)으로 직접 투영(projected)되는지에 대한 문제입니다. 모델이 네이티브 방식으로 학습되었더라도 비전 인코더(vision encoder)를 사용할 수 있습니다. Gemma 4 12B는 네이티브 멀티모달이면서 동시에 인코더 프리라는 점에서 이례적입니다.

원문 게시처: Learn AI Visually