GPU 없이 PC에서 Chrome의 초소형 Gemma4 (aka Gemini Nano)를 직접 실행하는 방법
요약
Google Chrome 환경에서 GPU 없이 Gemma4(Gemini Nano) 모델을 로컬로 실행할 수 있는 Chrome 확장 프로그램을 소개합니다. 별도의 복잡한 설정 없이 16GB RAM과 Chrome만 있으면 초당 약 20토큰의 속도로 모델을 사용할 수 있습니다.
핵심 포인트
- GPU 없이 Chrome 브라우저 내에서 Gemma4 로컬 실행 가능
- llama.cpp나 vllm 같은 별도의 프레임워크 설치 불필요
- 16GB RAM 환경에서 초당 약 20토큰의 빠른 속도 제공
- 맞춤법 검사 및 텍스트 요약 등 다양한 로컬 활용 사례
이번 달 초에 있었던 Gemini Nano의 은밀한 다운로드를 모두들 기억하시나요? 그리고 만약 그 모델과 대화를 나누면, 모델은 기쁘게 자신이 Gemma라고 말해줄 것입니다.
몇몇 친구들이 관심을 보였지만, 마치 잠긴 문 틈새로 불쌍한 집요정(house elf)에게 말을 거는 것처럼 개발자 도구(dev tools)를 통해 대화하는 것을 원치 않았기에, 이를 실행할 수 있는 5분짜리 '바이브 코딩(vibe coded)' 확장 프로그램을 만들었습니다.
Google Chrome, 16GB RAM, 그리고 약간의 디스크 공간만 있으면 됩니다. llama.cpp나 vllm 등은 필요하지 않으며, 별도의 설정(tinkering)도 필요 없습니다 (재미없다는 건 저도 압니다).
꽤 빠르고 부드러우며, GPU가 없는 제 노트북에서도 초당 약 20토큰(20t/s) 이상의 속도가 느껴집니다. 다만 실제 속도가 정확히 어느 정도인지에 대한 정보는 없습니다. 모든 것은 Chrome에 의해 처리됩니다. 세션당 사용 가능한 토큰은 Chrome에 의해 설정된 9216개입니다. 모델은 Chrome 내에서 완전히 로컬(fully local)로 실행됩니다.
사용 사례는.... 음, 제 맞춤법이 엉망이라는 것을 Google이 모르게 하기 위한 맞춤법 검사? 긴 인터넷 게시물의 빠른 요약? 아니면 그냥 귀여워서?
어쨌든, 여기 원클릭 추가 확장 프로그램이 있습니다:
[IMG:1]
만약 조금 더 직접 설정하고 싶고, 이 모델을 Dobby(Chrome의 집요정)라고 부르고 싶지 않다면, 여기 리포지토리(repo)가 있습니다:
[IMG:2]
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기