Gemma 4 12B: 통합형 인코더 없는 멀티모달 모델

코딩용으로 학습된 모델은 아닐 가능성이 큼. 오디오와 비전 입력이 있고 12B에 불과하며 발표 어디에도 코딩이 언급되지 않음
일반 코딩 성능은 Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B, gpt-oss-20b 같은 다른 소형 모델보다 낮을 가능성이 높음
16GB 노트북에서는 Qwen 3.5 9B가 확실한 최강이고, 소형 코딩 모델 최상위는 Gemma 4 31B지만 dense라 전체 문맥을 쓰려면 약 48GB 통합 메모리가 필요함

12GB VRAM 카드에서 출력 5토큰/초라면 하이브리드 모드로 CPU와 시스템 RAM이 섞여 쓰이는 것처럼 보임
그 속도는 4비트 기준 해당 크기 모델을 DDR4 RAM 대역폭으로 돌릴 때쯤 나오는 수치고, RTX 2080이나 RTX 3060 같은 12GB 소비자용 Nvidia GPU라면 llama.cpp CUDA 백엔드에서 20토큰/초 이상은 나와야 함

코딩에서 가장 큰 승리는 추론 능력이었던 것 같음. 그래서 작은 모델이 GPT-4.1 코딩 성능에 맞먹을 수 있지만, 일반 세계 지식에서는 더 큰 GPT-4.1이 여전히 이길 가능성이 큼

문법 문제는 파인튜닝이나 다른 매개변수 조정으로 해결될 수 있을지 궁금함. 그런 오류는 꽤 답답함

여기서 큰 이야기는 인코더 없는 구조인데, 아직 완전히 이해하진 못했음
“Gemma 4의 비전 인코더를 단일 행렬 곱, 위치 임베딩, 정규화로 구성된 가벼운 임베딩 모듈로 교체했다”는 설명은 기술적으로는 여전히 인코딩이고, SigLIP 같은 전용 모델을 쓰지 않는다는 뜻으로 보임
개발자 가이드에서는 35M 레이어라고 더 설명하는데 충분히 견고한지 궁금함: https://developers.googleblog.com/gemma-4-12b-the-developer-...
“16GB RAM 소비자 노트북에서 로컬 실행 가능”하다는 말은 양자화를 전제로 한 듯하고, 품질 손실을 생각하면 다소 오해를 부를 수 있음

이건 기본적으로 초기 융합임
FAIR가 2년 전에 이미 했음: https://arxiv.org/abs/2405.09818
그때부터 이런 모델이 공개되길 기다려 왔는데, 성가신 점은 Chameleon은 같은 원리로 다중모달 출력까지 됐지만 이 모델은 입력만 된다는 점임
다중모달 출력 없이 사전학습을 어떻게 했는지 궁금하고, 이미지 출력을 지원하지 않고 잘라낸 건지도 모르겠음

일반적인 의미에서는 “인코딩”이 맞지만, 여기서는 인코더 신경망이 없다는 뜻으로 말하는 것 같음

실제 큰 이야기는 Gallery 앱이라고 봄: https://developers.google.com/edge/gallery
16GB Mac을 가진 사람, 특히 기자도 꽤 많을 텐데, 누구나 앱을 내려받고 모델을 설치해 바로 만져볼 수 있음
이제 OpenAI의 소비자 매출 전망에 대해 기자들이 질문을 던지기 시작해야 할 것 같음
AI에 꽤 회의적이지만 제대로 아는 회의론자가 되려고 로컬 모델로 에이전트 작업과 CAD-to-image 생성을 조금 해봤고, Gemma 26B 모델은 꽤 마음에 듦
클라우드 의존성을 만들지 않고 기본기를 배우고 OpenCode를 익히는 데 쓰고 있는데 코드도 꽤 잘 쓰고, 원하는 속도로 배우는 데 도움이 됨
이 12B 모델이 홍보만큼 절반만 가까워도, 적어도 단기적으로는 소비자 대상 클라우드 사업 모델에 의문을 던짐
이 앱이 MTP drafter를 쓰는지는 불분명하고, Gemma에서는 아직 직접 동작시키지 못했지만 Qwen 3.6의 내장 MTP 지원은 LM Studio에서 훌륭했음

12B라면 8비트/매개변수에서 12GB, 거의 손실이 없고, 4비트/매개변수에서는 6GB라 보통 “꽤 근접한” 수준으로 받아들여짐
양자화를 너무 따지기 전에 기본 모델 성능이 얼마나 되는지부터 봐야 함

이제 닫힌 순환 게임으로 들어가는 중임. Google은 자기 모델을 가속하기 위해 남이 필요하지 않고, 이게 본업에 가까움
이런 효율화를 계속 개발하는 게 놀랍지만 동시에 놀랍지 않음. 실리콘과 CPU 아키텍처 발전처럼 계속 줄이고 줄이면서 더 강력해졌고, AI도 시간이 지나면 100배 효율적이 될 것 같음
언젠가 한계는 있겠지만 앞으로 30년은 지난 30년보다 더 진보할 것이고, 유전자 편집이 노화 세포와 장기를 고치고 암을 치료하는 식의 미래적 Blade Runner 같은 세계에 살게 될 수도 있음
우리 생애 이후에는 사람들이 안정적으로 125세까지 기동성을 유지하며 살고, 결국 1000년 수명까지 고민하게 될 것 같음
30년 전을 돌아보고 30년 뒤를 보면 말도 안 되게 변할 듯함. 신이 우리를 지켜주길 바람

지금이 분명 흥미로운 시기지만, 최첨단 발전 관점에서는 아직 딸 수 있는 낮은 열매가 많이 남아 있음
다만 작은 수의 매개변수에 담을 수 있는 “지식”에는 바닥이 있음
라디오나 항공, 심지어 마이크로컴퓨터 초창기가 이런 느낌이었을 것 같음

수명 최적화를 커리어나 취미보다 우선하는 길을 택했음. 미래를 보고 싶고, 이 AI 흐름이 정말 흥미로움

그렇진 않음
대형 모델은 여전히 훨씬 앞서 있고, Gemma 31B조차 전체적으로 12B보다 낫지만 대형 모델에 근접했다고 착각하면 안 됨
최적화 여지는 분명 있지만, 복잡한 작업에서는 정확도를 위해 학습 중 포착되고 추론 중 따라갈 수 있는 작고 가시적인 기울기가 필요함
예를 들어 코드 작성은 하지 말라고 지시하면서 코딩 질문을 하면 Gemma는 여전히 코드를 쓰지만, Gemini나 Claude는 그 뉘앙스를 잡고 지시를 더 잘 따름

Google이 오픈 모델을 공개하는 사업적 이유가 궁금함. 이런 공개에는 감사하지만, 영리 기업으로서 큰 그림에 어떻게 들어맞는지 이해하고 싶음
스스로 개발한 새로운 기술 위에 경쟁자가 올라서도록 돕는 건 아닌가 싶음
단순한 호의나 마케팅인지, 아니면 놓치고 있는 전략이 있는지 궁금함

프런티어 연구소들이 추론에서 80% 총마진을 받을 수 있는 큰 이유는 프런티어 모델이라는 희소 자원을 쥐고 있기 때문임
추론이 충분히 인기 있고 가치 있어져 그 회사들이 수십억 달러 이익을 내면, 그 이익으로 Google과 고객 사이를 끊는 대체 제품과 플랫폼을 만들 수 있음
Google은 이미 세계 최대 규모의 80% 총마진 사업을 갖고 있고 모두가 그 일부를 원함
프런티어 추론은 원가에 가깝게 제공하고, 프런티어 아래 모델은 오픈소스로 풀어 모델을 상품화하면 프런티어 연구소들이 추론에서 지속적으로 높은 총마진을 내기 어려워짐
이건 전략적 수임

이 모델이 자체 상업용 매출 제품을 대체하진 않지만, 개발 활동을 가능하게 하고 이 모델로 시작했다가 조금 더 원하게 되는 기업과의 대화를 열어 줌
현재 내 회사도 여러 플랫폼 제품에 올인하고 있고, Microsoft도 어제 목표가 “Unmetered intelligence”라고 말했음
작은 로컬 모델로 가능해지는 일이 많고, 그런 일들은 다른 계층에서 매출을 만드는 스택의 일부가 됨

Android와 Chrome에는 온디바이스 AI 기능이 필요함. Google은 서버 측 머신러닝처럼 이 가중치를 잠가둘 수 없음
어차피 누군가 가중치를 빼낼 테니, 그냥 오픈소스로 공개하고 공식화하는 편이 더 쉬움

Google은 AI에서 몇 안 되는 수직 통합 선택지임. 데이터, 모델, 클라우드 서비스, 저수준 실리콘(TPU), 내부 활용, 소비자 활용, B2B 활용, 배포망(브라우저와 모바일) 등을 갖고 있음
AI 채택이 늘수록 함께 올라가고, 사람들이 Google 솔루션을 선택하면 더 유리해짐
Google 모델로 보내지는 모든 토큰은 무료든 유료든 경쟁자가 최첨단을 유지하기 위해 막대한 돈을 쓰게 만드는 압박이 됨

AI 연구소라면 이 분야에 연구팀을 두고 싶을 수밖에 없음. 여기서 가장 쉽게 반복 실험하고 개선을 만들며, 나중에 더 큰 프런티어 모델에 반영할 수 있기 때문임
문제는 모델을 공개할지, 순수 연구개발에만 쓸지임
이미 다른 곳들도 비슷한 품질의 모델을 공개하고 있어서, 그 흐름에 합류한다고 스스로 발등을 찍는다고 보긴 어려움
추가적인 자기잠식은 사실상 0에 가깝고, 평판상 이득이 그만한 가치가 있을 가능성이 큼

이미지 처리는 형편없음. Qwen 3.5 0.8B와 여러 테스트를 해봤는데, 크기는 7%뿐인 Qwen이 매번 이겼고 Gemma는 완전히 틀리는 경우가 많았음
“This is a test”라고 적힌 단순한 이미지를 줬는데도 6분 동안 분석하려고 생각하다 실패했고, Qwen 3.5 0.8B는 1초도 안 돼 자신 있게 맞췄음
내가 받은 Q6 양자화가 망가졌거나 LM Studio 문제일 수도 있지만, 어느 쪽이든 0.8B의 성능이 비교하면 놀라움

Google이 Alibaba보다 더 많거나 강한 가드레일을 넣어서 작은 모델을 헷갈리게 하는 것 같음
Gemma3 모델에서도 이미지에 노출이나 성적 장면이 있다며 설명을 거부하는 경우가 자주 있었고, 그 동작의 의미를 이해하지 못했음

Gemma 모델은 항상 비전 작업에서 Qwen보다 훨씬 못한다고 느꼈고, 새삼스러운 일은 아님

아키텍처 변화와는 별개로, Gemma4 사전학습 모델 라인업에서 4B와 26B 사이가 이상하게 비어 있던 이유에 대한 답처럼 보임
문맥 여유까지 두고 16GB VRAM에 편하게 들어가는 모델은 반가운 업그레이드임

멀티미디어를 제외하면 이게 prismml의 qwen2.5 기반 1.5비트 모델보다 얼마나 나은지 궁금함

이런 소형 모델의 활용 사례가 궁금함. 이 규모 모델을 일상적으로 쓰는 사람이 실제 경험을 공유해 줄 수 있을까?

지하실 Linux 머신에서 vLLM을 돌리고 Tailscale로 연결해 작은 모델을 여러 작업에 씀
스캔 문서를 서식 있는 텍스트로 옮기기, 이미지 캡션/설명과 대상 적합성 분류(스팸 방지 포함), 문서를 관련 Wikipedia 페이지와 매칭해 태깅하기 같은 작업임
프런티어 모델처럼 쓰지는 않고, 각 프롬프트가 하나의 명확한 목표를 갖도록 마이크로 작업으로 쪼갬
전체 흐름이 돌아가도록 접착 코드도 많이 쓰고, 이런 작업들은 LLM이 나오기 전부터 하던 것들임
LLM 덕분에 복잡한 코드를 줄이고 모델을 더해 더 나은 결과를 얻을 수 있었음
로컬 모델을 쓰는 이유는 비용과 통제권임. 이미 워크스테이션과 GPU가 있었고 운영 비용은 전기뿐임
OpenAI와 Google의 독점 모델도 써봤지만, 도구가 의존하던 모델이 은퇴하면서 흔들린 적이 있었음. 가중치를 로컬에 저장해 두면 그런 걱정이 없음

직접 만든 받아쓰기 앱에서 로컬 모델로 텍스트를 다듬고 문법을 고침. 만들기 매우 쉬웠고, 지금은 회의록 캡처와 요약까지 확장 중이며 전부 온디바이스로 처리함
얼마 전에는 스크린샷을 보고 파일 내용을 바탕으로 파일명을 바꾸는 작은 앱도 봤음
이런 작은 예시는 많고, 많은 사용 사례에는 프런티어 모델이 전혀 필요 없음

Gemma를 몇 년치 온라인 글쓰기 검토와 분류에 써봤음. 내가 참여하는 오픈소스 프로젝트 포럼, HN, Reddit 등에 쓴 약 500만 단어를 대상으로 했고, 내 글이라 데이터 출처 윤리 걱정 없이 LoRA 학습도 실험함
지금은 특정 업종에 대한 웹 검색과 데이터 추출에 사용 중임
주어진 도시에서 해당 업종 사업체를 찾고, 웹사이트를 읽고, 주소와 전화번호 등을 뽑고, 중복 제거와 다른 출처 교차검증까지 할 만큼 충분히 똑똑함
Gemma 4는 Gemini 2.5 Flash보다 더 낫거나 적어도 더 미묘한 판단을 했고, 새 Gemini 3.5 Flash는 매우 좋지만 비현실적으로 비쌈
아주 빠른 성능이 필요하지 않다면 자체 호스팅 Gemma 4가 여러 작업에서 이김
Qwen 3.6 27B도 크기에 비해 보안 버그 찾기를 놀랄 만큼 잘함. 더 큰 여러 모델을 이기고 Gemini Pro 3.1에 가깝지만, Gemini 3.5 Flash는 의외로 확실히 더 잘함
전기요금만 들고 내 전기는 싸고 100% 재생 가능이라 호스팅 모델보다 더 넓게 사용할 수 있음
그래도 현명한 돈은 아직 공급자들이 보조금처럼 싸게 푸는 토큰을 사는 쪽임
30GB 이상 모델을 돌릴 하드웨어를 사기보다 Claude나 Codex의 100달러 구독으로 최고 모델을 크게 할인된 가격에 쓰는 게 현재는 유리함
자동화 API가 필요하다면 DeepSeek/MiMo는 Anthropic이나 OpenAI 최고 모델보다 한두 자릿수 이상 저렴함
추론 머신 두 대에 약 4000달러를 썼는데, 이 돈이면 이런 작은 모델용 토큰을 몇 년 치는 살 수 있음
다만 하드웨어 만지는 걸 좋아해서 그 자체가 보상이고, 일부라도 회수되면 보너스임
주요 제공자들이 보조 토큰으로 돈 태우는 걸 멈추고 본격 과금하려 들면 계산은 바뀔 수 있고, RAM 가격이 2~3배 오르기 전에 장비를 사둔 게 다행일 수도 있음
기술을 배우거나 직접 학습 실험을 해볼 생각이 없다면 대부분의 경우 로컬 실행을 시도하지 않는 편이 나을 것 같음

작은 모델은 특정 작업에 아주 좋은 틈새가 있음. 내가 개발하는 데스크톱 앱의 문서 처리 쪽에는 파인튜닝한 Phi-4 모델을 쓰는데, 이 모델보다 작고 VRAM이 아니라 RAM 약 3.5GB에 들어감
로컬 모델 사용에 매우 구체적인 아이디어가 있으면 그래픽카드나 NPU 없이도 잘 동작하게 만들 수 있음
다만 사용 방식을 극도로 제한해야 함. 범용 챗봇으로는 좋지 않고, 로컬 LLM을 좋아하는 입장이지만 그때는 호스팅된 최신 모델을 쓰겠음

이 모델은 모르겠지만 바로 위 31B는 OpenCode에서 에이전트형 코딩 도우미로 쓰고 있음
Sonnet에게 맡겨도 될 만큼 쉬운 일이라면 Gemma 4에게도 맡기고 있고, 아주 잘하고 있음
부정적으로 놀라는 것보다 긍정적으로 놀라는 경우가 훨씬 많음
Gemma 4가 실패해서 Opus 4.7로 바꿨는데 Opus도 실패하는 상황도 드물지 않게 만남

꽤 좋은 업데이트임. 다만 데모 영상은 좀 웃김
테스터가 릴리스를 글머리표로 바꿔 달라고 하자 모델이 잘 처리함
이어서 이 내용으로 이메일 초안을 만들라고 하니, 요청하지도 않았는데 글머리표를 문단으로 바꿔 버려 방금 잘한 일을 되돌림
이메일에는 글머리표를 넣지 않는 예절이라도 있는 건지 모르겠음

독일어 관련 벤치마크를 빠르게 배포해 확인해 봄. CohereLabs/include-base-44 독일어 전용 결과는 Gemma 4 12B가 0.618 수준임
Gemma 4 26B(A4B MoE)는 0.647, Qwen 3 14B는 0.621, Gemma 4 12B는 0.618, Ministral 14B 2512는 0.604, Gemma 3 12B는 0.547임
Qwen 3 14B와 Gemma 4 12B 차이는 무작위 변동 범위 안이고, 반복 실행에서는 정확히 같은 점수가 나온 적도 있음
다음 단계인 Gemma 4 31B는 이 벤치마크에서 0.676이고, 추론을 허용한 Qwen 3 14B도 0.676이 나옴
내일은 부정행위 방지 벤치마크도 돌려 Qwen이 여전히 앞서는지 확인해볼 예정임

Gemma 4 12B: 통합형 인코더 없는 멀티모달 모델

요약

핵심 포인트

댓글