
로컬 환경에서 Gemma를 멀티모달 API 서버로 실행하여 이미지 인식을 수행하는 방법
요약
Apple Silicon Mac 환경에서 Ollama를 사용하여 Gemma 멀티모달 모델을 로컬 API 서버로 구축하는 방법을 설명합니다. OpenAI 호환 API를 통해 이미지 인식을 수행하며, 보안이 중요한 로컬 VLM 환경을 구성할 수 있습니다.
핵심 포인트
- Ollama를 활용한 Gemma 멀티모달 모델 로컬 서버 구축
- OpenAI SDK와 호환되는 API 엔드포인트 제공
- Apple Silicon 환경 최적화 및 완전 오프라인 구현 가능
- 이미지 리사이징 및 타임아웃 설정을 통한 성능 최적화
MacBook(Apple Silicon) 로컬 환경에 Ollama를 도입하여, Gemma 시리즈의 멀티모달 모델을 이용해 이미지 인식이 가능한 OpenAI 호환 API 서버를 구축하는 방법을 소개합니다.
- macOS
- Apple Silicon(M 시리즈)
- Ollama
- OpenAI SDK(Python / Node.js)
brew install ollama
실행 확인
ollama --version
API 엔드포인트
ollama pull gemma3:12b
IMG_DATA=$(base64 -i "$HOME/Desktop/sample.png")
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d "{
...
{
"id": "chatcmpl-437",
"object": "chat.completion",
...
import base64
from openai import OpenAI
client = OpenAI(
...
- 이미지는 1024~1200px 정도로 리사이징하면 고속화됨
- 첫 추론(Inference)은 시간이 걸리므로, SDK에서는
timeout=60정도를 권장 - OpenAI 호환 API이므로 기존 코드를 거의 그대로 이용 가능
Ollama와 Gemma를 조합함으로써, Mac만으로 완결되는 로컬 VLM(Vision Language Model) 환경을 간단히 구축할 수 있습니다.
- 완전 오프라인
- OpenAI 호환 API
- Python・Node.js에서 이용 가능
- 기밀 데이터를 외부로 전송하지 않는 안전한 이미지 인식 환경
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기