본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 25. 09:58

Gemma 4의 이해부터 AI 영어 코치 SpeakUp 구축까지

요약

Google DeepMind의 오픈 소스 모델인 Gemma 4의 특징과 활용법을 소개합니다. Gemma 4를 기반으로 한 AI 영어 코치 'SpeakUp' 구축 사례와 함께, PLE 기술이 적용된 효율적인 모델 라인업(E2B, E4B, 26B A4B, 31B)을 상세히 설명합니다.

핵심 포인트

  • Gemma 4는 Apache 2.0 라이선스의 오픈 소스 모델임
  • PLE 기술을 통해 모델 크기 대비 빠른 속도와 낮은 메모리 점유율 구현
  • Ollama를 통한 로컬 실행 및 Google AI Studio API 활용 가능
  • 텍스트 생성, 코딩, 추론, 이미지 이해, 함수 호출 지원

이 글은 Gemma 4 Challenge: Write About Gemma 4를 위한 제출물입니다.

내가 이 프로젝트를 시작한 이유

수백만 명의 사람들이 영어를 배우고 싶어 하지만 개인 튜터를 고용할 여유가 없습니다. 많은 가정에게 이는 너무 비싼 비용입니다. 그래서 저는 AI를 사용하여 튜터를 만들기로 결심했습니다. 단순한 챗봇(Chatbot)이 아니라, 7세 아이 👧부터 60세 성인 👴까지 모두를 위한 진정한 영어 코치를 만들고자 했습니다. 저는 이를 SpeakUp이라고 이름 붙였으며, 이는 Gemma 4를 기반으로 작동합니다. 저는 여전히 활발하게 이를 구축하고 있습니다. 하지만 SpeakUp을 보여드리기 전에, Gemma 4를 쉬운 방식으로 설명하고 싶습니다. 이 글을 다 읽을 때쯤이면 Gemma 4가 무엇인지, 어떻게 작동하는지, 그리고 제가 SpeakUp을 구축하기 위해 이를 어떻게 사용하고 있는지가 명확해질 것입니다.

Gemma 4란 무엇인가?🤖

Gemma 4는 Google DeepMind가 구축한 오픈 소스(Open-source) AI 모델로, Apache 2.0 라이선스 하에 출시되어 자유롭게 사용, 수정 및 구축할 수 있습니다.

사용 방법에는 두 가지가 있습니다:

  • 💻 Ollama를 통해 로컬(Locally)에서 실행
    => 인터넷이나 API 키가 필요 없음

  • ☁️ Google AI Studio API를 통해 접속
    => 인터넷과 API 키가 필요함

로컬에서 실행한다는 것은 Gemma 4가 전적으로 사용자의 자체 기기에서 실행됨을 의미합니다. 즉, 데이터가 기기를 떠나지 않으며 구독도 필요하지 않습니다. Google AI Studio API를 통해 접속한다는 것은 Gemma 4가 Google의 서버에서 실행되며 사용자의 앱이 인터넷을 통해 모델과 통신함을 의미합니다.

Gemma 4는 다음과 같은 작업에 매우 적합합니다:

  • 📝 텍스트 생성 (Text generation)
  • 💻 코딩 보조 (Coding assistance)
  • 🧠 추론 (Reasoning)
  • 🖼️ 이미지 이해 (Image understanding)
  • 🔧 함수 호출 (Function calling) 및 에이전트 애플리케이션 (Agentic applications) 구축

네 가지 Gemma 4 모델📦

Gemma 4에는 E2B, E4B, 26B A4B, 31B의 네 가지 모델이 있습니다.

E2B — 📱Effective 2 Billion

"E"는 Effective (효율적)를 의미합니다. E2B는 Gemma 4 제품군 중 가장 작은 모델입니다. 총 5.1B (51억 개)의 파라미터 (Parameters)를 가지고 있지만, 훨씬 더 작은 2.3B 모델의 속도와 메모리 점유율로 작동합니다. 이는 Per-Layer Embeddings (PLE)라고 불리는 기술 덕분에 가능합니다. 모든 것을 한꺼번에 로드하는 대신, 모델의 각 레이어 (Layer)는 자신에게 필요한 작은 정보 조각만을 가져옵니다. 이 덕분에 가볍고 빠르며, 스마트폰 및 저사양 메모리 기기에 완벽하게 적합합니다.

E4B — 💻Effective 4 Billion

E4B는 E2B와 마찬가지로 PLE를 사용하여 작동합니다. 총 8B의 파라미터를 가지고 있지만, 4.5B 모델의 속도와 메모리 점유율로 작동합니다. E2B보다 더 똑똑하며 복잡한 추론 (Reasoning)에 더 적합하면서도, 일반적인 노트북에서 여전히 구동이 가능합니다.

26B A4B — Mixture of Experts

"A"는 Active (활성)를 의미합니다. 이 모델은 총 26B의 파라미터를 가지고 있지만, 요청당 약 4B의 파라미터만 활성화합니다. 이를 통해 전체 26B의 지식 베이스 (Knowledge base)에 접근하면서도 더 빠르고, 저렴하며, 효율적으로 작동합니다.

31B Dense

31B Dense 모델은 모든 요청에 대해 30.7B의 파라미터를 모두 사용하며, 제품군 내에서 가장 철저하고 정확한 추론을 수행합니다.

Multimodal Capabilities (멀티모달 기능)

네 가지 모델 모두 텍스트와 이미지 입력을 처리합니다. E2B와 E4B는 최대 30초까지의 오디오 (Audio)도 지원합니다🎵. 모든 모델은 텍스트 출력만을 생성합니다. 또한 140개 이상의 언어에서 다국어 지원 (Multilingual support)을 유지합니다🌍.

Understanding the Building Blocks🔬 (구성 요소의 이해)

Parameters — 🧠Intelligence Capacity (파라미터 — 지능 용량)

파라미터는 AI 내부에서 학습된 지식의 연결 고리입니다. 일반적으로 파라미터가 많을수록 더 높은 지능, 더 나은 추론, 그리고 더 나은 이해력을 의미합니다.

Layers — 🏢Depth of Reasoning (레이어 — 추론의 깊이)

레이어는 AI 내부의 사고 단계입니다. 각 레이어는 입력을 처리하고 더 풍부한 이해를 다음 레이어로 전달합니다.
더 많은 레이어 = 더 깊은 사고 = 복잡한 의미에 대한 더 나은 이해.

Embeddings — The Language Translation Layer🔤 (임베딩 — 언어 번역 레이어)

E2B의 경우, 총 파라미터 = 2.3B 유효 파라미터 (Effective parameters) + 임베딩 파라미터 (Embedding parameters) = 총 5.1B입니다.

추론 파라미터 (Reasoning parameters, 2.3B) — 실제 사고 과정 🧠
임베딩 파라미터 (Embedding parameters, 나머지) — 번역 계층

2.3B의 추론 파라미터 (Reasoning parameters)는 AI의 실제 "사고" 부분입니다. 이 파라미터들은 모델이 질문을 이해하고, 추론하며, 답변을 생성하는 것을 돕습니다.
나머지 파라미터들은 임베딩 파라미터 (Embedding parameters)입니다. 이들의 역할은 단어와 토큰 (Tokens)을 AI가 내부적으로 이해할 수 있는 수학적 형태로 변환하는 것입니다.

따라서 E2B는 총 5.1B의 파라미터를 가지고 있음에도 불구하고, 오직 2.3B만이 주로 추론에 사용되기 때문에 더 작고 효율적인 모델처럼 동작하는 것입니다.

임베딩 (Embeddings)은 단어, 문장, 그리고 의미를 AI가 내부적으로 이해하는 숫자로 변환합니다. 예를 들어, "cat"이라는 단어는 모델 내부에서 일련의 숫자로 변환됩니다. 임베딩은 AI 두뇌를 위한 언어 번역 계층 (Language translation layer)입니다.

토큰 (Tokens)과 어휘 (Vocabulary) — AI가 텍스트를 읽는 방식 📖
어휘 (Vocabulary)는 AI가 이해할 수 있는 토큰의 양을 의미합니다. 하지만 토큰은 단어와 동일하지 않습니다.
토큰은 다음과 같을 수 있습니다:

  • 전체 단어 — "cat" = 1 토큰
  • 단어의 일부 — "unbelievable" = 3 토큰 (un / believe / able)
  • 기호 및 문장 부호 — "!" = 1 토큰
  • 코드 스니펫 (Code snippets) 및 특수 문자

컨텍스트 길이 (Context Length) — 💾 전체 메모리 크기
컨텍스트 길이 (Context length)는 대화 중에 AI가 한 번에 기억할 수 있는 정보의 양을 의미합니다. 이는 토큰 단위로 측정됩니다.

  • 128K 토큰 = 약 90,000 단어 = 소설 한 권 분량 📗
  • 256K 토큰 = 약 180,000 단어 = 소설 두 권 분량 📗📗

슬라이딩 윈도우 (Sliding Window) — 로컬 어텐션 메모리 🪟
모든 토큰을 한 번에 살펴보는 대신 (이는 매우 느려질 것입니다), AI는 한 번에 근처의 청크 (Chunks)나 윈도우 (Windows)에 집중합니다. 이를 슬라이딩 윈도우 어텐션 (Sliding window attention)이라고 합니다.
Gemma 4는 하이브리드 접근 방식을 사용합니다. 속도를 위한 로컬 슬라이딩 윈도우 어텐션 (Local sliding window attention)⚡과, 전체적인 맥락을 파악하기 위해 몇 개의 레이어마다 적용되는 글로벌 어텐션 (Global attention)을 함께 사용합니다. 마지막 레이어는 항상 글로벌 방식입니다. 따라서 Gemma 4는 답변을 생성하기 전 항상 전체적인 관점을 갖춘 상태로 마무리합니다.

SpeakUp이란 무엇인가요?🎙️
SpeakUp은 AI 기반의 영어 학습 웹 앱입니다. 백엔드는 Python (FastAPI)으로, 프론트엔드는 순수 HTML, CSS, JavaScript로 구축되어 Chrome에서 실행됩니다. Gemma 4가 모든 기능을 구동합니다.

두 가지 모드:

👤성인 모드 (Adult mode) — 정확한 문법 규칙, 전문적인 어조, 상세한 설명
👶키즈 모드 (Kids mode) — 토글 하나로 앱 전체가 변합니다 — 더 큰 텍스트, 더 쉬운 단어, 격려하는 어조, 더 느린 음성

주요 기능:

  • 📚 A부터 Z까지의 문법 레슨 (Grammar Lessons A to Z)
  • ✅ 문법 교정 (Grammar Correction)
  • 🎧 듣기 연습 (Listening Practice)
  • 📖 읽기 연습 (Reading Practice)
  • ✍️ 쓰기 연습 (Writing Practice)
  • 🤝 스피킹 파트너 (Speaking Partner)
  • 🔁 쉐도잉 (Shadowing)
  • 🗣️ 발음 체크 (Pronunciation Check)
  • 🎯 축하 효과가 포함된 퀴즈 (Quiz with Celebrations)
  • 🧩 단어 배열 맞추기 (Word Scramble)

도전 과제 — RAM 문제⚠️

E4B 모델을 성공적으로 다운로드했습니다. 모든 것이 괜찮아 보였습니다. 하지만 실행하려고 시도한 순간 다음과 같은 오류가 발생했습니다:

model requires more system memory (9.8 GiB) than is available (4.9 GiB)

제 노트북의 총 RAM은 8GB입니다. Windows가 점유한 용량을 제외하면 4.9GB만 사용 가능했습니다. E4B는 9.8GB가 필요합니다. 모델이 로드되지 않았습니다.

해결책은 Google AI Studio였습니다. 저는 무료 API를 통해 Google 서버에서 실행되는 26B A4B 모델로 전환했습니다.
오프라인 옵션은 여전히 존재합니다. 10GB 이상의 여유 RAM을 가진 사용자라면 main.py의 코드 한 줄을 변경하여 로컬 Ollama로 전환할 수 있습니다.

SpeakUp은 아직 개발 중이지만, AI가 어떻게 영어 학습을 모든 사람에게 더 접근하기 쉽고 실용적으로 만들 수 있는지 이미 보여주고 있습니다🌍.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0