Qiita헤드라인2026. 05. 15. 18:42

로컬 언어 모델을 사용해 보기: 2 Gemma 4 사용해 보기

요약

본 글은 로컬 환경에서 Gemma 4와 같은 언어 모델을 직접 테스트하고 비교 분석한 내용을 담고 있습니다. 특히 스마트폰이나 저사양 기기에서도 구동하기 쉽도록 최적화된 E2B/E4B 경량 모델의 성능과 사용성을 중점적으로 다룹니다. Gemma 4는 Apache 2.0 라이선스 공개, Google LLM 아키텍처 테스트 용이성, 그리고 경량 모델 제공 등의 장점을 바탕으로 주목받고 있으며, 높은 성능을 보여주면서도 실제 연산량을 효율적으로 제어하는 구조적 특징(PLE 기술)을 가지고 있습니다. 결론적으로, 특정 모델의 우열보다는 사용 목적과 환경에 맞춰 적절한 모델을 선택하고 활용하는 것이 중요함을 강조합니다.

핵심 포인트

Gemma 4는 Apache 2.0 라이선스로 공개되어 접근성이 높고, Google LLM 아키텍처 테스트에 용이하다.
E2B/E4B와 같은 경량화 모델은 스마트폰이나 저사양 환경에서도 고속으로 구동할 수 있도록 최적화되었다.
Gemma E 계열 모델은 PLE(Per-Layer Embeddings) 기술을 적용하여 실제 연산량을 억제함으로써, 큰 규모를 유지하면서도 효율적인 동작이 가능하다.
테스트 결과, Gemma E 계열은 응답 속도와 즉응성이 높았고, Qwen 3.5 4B는 장문 추론이나 복잡한 태스크에서 안정적인 출력을 보여주었다.
로컬 AI를 에이전트(Agent)로 활용할 때는 외부 정보 검색 기능 외에도 데이터 보안 및 내부 시스템 접근의 안전성 문제를 반드시 고려해야 한다.

이번에는 로컬 언어 모델을 직접 사용해 보겠습니다.

로컬에서 동작하는 모델에는 Qwen 등 여러 선택지가 있지만,

이번에는 Gemma를 선택했습니다.

주요 이유는 다음의 3가지입니다.

Gemma 4부터 Apache 2.0 라이선스로 공개되었다는 점
Google 계열 LLM 아키텍처를 테스트하기 쉽다는 점
E2B / E4B와 같은 경량 모델이 제공된다는 점

특히 E2B / E4B 모델은 스마트폰이나 저사양 환경에서도 동작하기 쉽도록 최적화되어 있어, 로컬 AI를 테스트할 때 다루기 쉽다는 인상을 받았습니다.

![[要求パラメータ.png]]

Gemma 4 모델 개요 | Google AI for Developers

Gemma 4 31B 모델은 텍스트 계열 벤치마크에서 Qwen 3.5-397b-a17b와 동등한 수준의 결과를 보여주었으며,

Gemini 2.5 Pro에 필적하거나 일부 항목에서는 상회하는 결과도 보여, 로컬 동작 모델로서는 매우 높은 성능을 나타냈습니다.

그렇다고는 해도 벤치마크만으로는 실제 사용감을 알 수 없기 때문에,

직접 테스트해 보기로 하겠습니다.

여기서는 설치가 필요 없는 테스트 방법과,

많은 분이 테스트하기 쉬운 스마트폰 및 저사양용 모델(E2B·E4B)을 실제로 구동해 보는 모습을 소개합니다.

먼저, 설치나 고사양 PC 없이 바로 체험해 보고 싶은 분은 Google AI Studio에서 Gemma 4 26B A4B 모델 및 Gemma 4 31B 모델을 즉시 테스트할 수 있습니다.

Google 검색 기능도 내장되어 있어 질의응답이나 코딩 테스트를 시켜보는 것도 좋을 것입니다.

그럼 이어서 자신의 디바이스에서 구동해 보겠습니다.

Snapdragon gen2 12GB RAM
Google AI Edge Gallery(APP)

테스트한 모델: Gemma 4-e2b

모바일에서 직접 테스트해 보고 싶은 분은 Google AI Edge Gallery(Android/iOS)에서 다운로드하여 즉시 실행할 수 있습니다.

응답 속도는 매우 빠르며(응답 종료까지 약 1.8초), 모바일 환경에 최적화된 Lite 모델입니다.

모델 정보

gemma4는 멀티모달(Multimodal) AI로 이미지 인식이나 음성 인식 등도 가능합니다.

※ 음성 기능은 E2B, E4B만 가능

Google AI Studio에는 기본적으로 준비된 에이전트(Agent) 기능도 탑재되어 있어 바로 테스트할 수 있습니다.

AMD AI 5 Pro / Radeon 840M / 32GB RAM
LM Studio
Thinking 모드(시스템 프롬프트에 입력)
Temperature 0.8

두 가지 경량화 모델에 동일한 질문을 했을 때의 답변 차이입니다.

e2b 모델의 경우 매우 빠르지만 심플한 답변이 나왔습니다.

e4b 모델은 느리지만 더 상세한 답변을 출력해 주었습니다.

동일한 질문을 했을 경우, Qwen 3.5 4B 쪽이 "짧게 설명하라"는 의도를 더 잘 파악하여 출력한다는 인상을 받았습니다.

생성 속도는 Gemma 4 E4B와 마찬가지로 초당 10 토큰 내외를 기록했습니다.

둘 다 "4B"가 붙어 있기 때문에 이 결과 자체는 그리 이상할 것이 없습니다.

하지만 여기서 흥미로운 점은 VRAM 사용량입니다.

Gemma 4 E2B와 Qwen 3.5 4B의 실제 VRAM 사용량은 둘 다 5GB 전후로 비슷한 값이었습니다. (E4B의 경우 약 7.5GB 전후)

일반적으로 생성 속도는 VRAM 사용량 그 자체가 아니라, 실제로 연산에 사용되는 파라미터(Parameter) 양의 영향을 받습니다.

Gemma 4 E 계열 모델의 "E"는 Effective(유효)를 의미합니다.

디바이스 상에는 e2b의 경우 5B 전체를 유지하지만, 추론 시 매번 모든 파라미터를 계산하는 것은 아닙니다.

기본적인 Dense 구조에 PLE(Per-Layer Embeddings)라는 기술이 적용되어 있어, 파라미터의 절반 이상(약 2.8B)은 참조 테이블(Reference Table)로 이용됩니다.

따라서 실제 연산 규모는 약 2.3B 상당으로 억제되어 있습니다.

입력된 정보는 각 레이어(Layer)에서 서로 다른 특징 표현을 참조하며 단계적으로 추론 결과를 정교화해 나갑니다.

이러한 구조 덕분에 Gemma E 계열은 비교적 큰 모델 규모를 유지하면서도 실제 연산량을 억제하여, 경량 환경에서도 고속으로 동작하기 쉽도록 최적화되어 있습니다.

이번에 테스트한 경량 모델들끼리 비교해 보면, Gemma E 계열은 응답 속도와 즉응성 (Responsiveness)이 높았고, Qwen 3.5 4B는 장문 추론이나 복잡한 태스크 (Task)에서 안정적인 출력을 내놓는다는 인상을 받았습니다.

결국 모델 전체의 우열이라기보다는, 용도에 따라 나누어 사용하는 것이 중요하다고 생각합니다.

다음으로, E4B 모델에 검색 엔진을 툴 (Tool)로서 결합하여, 에이전트 (Agent)로서의 역할을 조금 테스트해 보았습니다.

Gemma 4의 경우, 2025년 1월까지의 정보를 학습했기 때문에 당연히 모를 수밖에 없는 iPhone 17에 대해 조사해 오는 모습을 보였습니다.

만약 제가 컴퓨터 내부의 검색 기능을 추가했다면, AI에게

"회사의 올해 매출이나 고객 정보를 정리해 주세요"라고 부탁할 수도 있을 것입니다.

외부 AI에게 이런 정보를 읽게 할 수는 없으니까요.

하지만 내부 시스템에서 읽게 한다고 하더라도, 설치한 라이브러리 (Library) 자체가 정말 안전한지는 미지수입니다. 또한, 자사의 올해 매출을 정리하여 PDF 등으로 저장되는 것 자체가 문제가 될 가능성도 있으므로, 그 점은 유의해야 할 부분이라고 생각합니다.

다음 기사에서는 에이전트를 설계하는 데 있어 중요하다고 느낀 점에 대해 다루겠습니다.

AI 자동 생성 콘텐츠

원문 바로가기

로컬 언어 모델을 사용해 보기: 2 Gemma 4 사용해 보기

요약

핵심 포인트

댓글