Ollama 2026 리뷰: 기본 로컬 LLM 실행 도구

이 기사는 원래 aifoss.dev에 게시되었습니다.

title: 'Ollama 2026 리뷰: 기본 로컬 LLM 실행 도구'
description: 'Ollama는 자신의 하드웨어에서 로컬 LLM (Large Language Models)을 실행하는 가장 쉬운 방법입니다. 여기서는 0.23.3 버전이 잘하는 것, 부족한 점, 그리고 다른 것을 사용해야 할 때를 다룹니다.'
pubDate: '2026년 5월 14일'

tags: ["ollama", "ai", "selfhosted", "llm", "opensource"]

Ollama는 2024년경부터 "로컬 LLM을 어떻게 실행하나요?"라는 질문에 대한 기본 답변이 되었으며, 로컬 추론 (Inference)에서 가장 짜증 나는 부분인 'CUDA에 대한 박사 학위 없이 모델을 로드하고 응답하게 만드는 것'을 지속적으로 해결함으로써 그 위치를 지켜왔습니다.

v0.23.3 버전(2026년 5월 13일 출시) 기준으로, 여전히 대부분의 사람들에게 적합한 시작점입니다. 또한 특정 사용 사례에서는 여전히 적절하지 않으며, Ollama를 기반으로 구축하기로 결정하기 전에 이러한 사례들을 알아둘 가치가 있습니다.

이 리뷰는 Ollama가 실제로 무엇을 하는지, 필요한 하드웨어는 무엇인지, 2026년에 무엇이 변했는지, 한계점은 어디인지, 그리고 주요 대안들과 어떻게 비교되는지를 다룹니다. 목표는 단순한 기능 목록이 아니라, 여러분이 실행에 옮길 수 있는 결론을 내리는 것입니다.

Ollama란 무엇인가 (그리고 무엇이 아닌가)

Ollama는 로컬 모델 실행기 (Model Runner)입니다. 설치하고, 모델을 가져오고(pull), 실행하면 됩니다. localhost:11434에서 OpenAI 호환 REST API를 노출하므로, OpenAI API를 위해 구축된 모든 것은 단 한 줄의 변경만으로 Ollama에서 작동합니다.

내부적으로는 llama.cpp를 감싸는 래퍼 (Wrapper)입니다. 이는 중요한데, Ollama가 llama.cpp의 광범위한 하드웨어 지원(NVIDIA, AMD, Apple Silicon, 그리고 CPU 전용)을 상속받는 동시에, 더 깔끔한 CLI (Command Line Interface), 자동 모델 관리, 그리고 ollama.com/library의 모델 라이브러리를 추가한다는 것을 의미하기 때문입니다.

Ollama가 아닌 것: 채팅 UI (이를 위해서는 Open WebUI를 사용하세요), 미세 조정 (Fine-tuning) 도구, 다중 사용자 추론 서버, 또는 수십 명의 동시 사용자를 서비스해야 하는 경우의 vLLM 대체제.

라이선스: MIT. GitHub에서 빈번한 릴리스가 이루어지는 활발한 오픈 소스 프로젝트.

2026년에 변한 것

v0.6.2 (2026년 3월)

Llama 4 지원 추가
배치 임베딩 (Batch embedding) API — 한 번의 호출로 여러 텍스트를 임베딩할 수 있으며, RAG (Retrieval-Augmented Generation) 파이프라인에 유용함
Flash Attention v2.7 통합
Apple Silicon을 위한 M4 Metal 3 최적화

v0.23.3 (2026년 5월 13일)

/api/show 응답이 이제 캐싱되어 중간 API 지연 시간 (latency)이 약 6.7배 개선되었습니다 — 이 엔드포인트를 반복적으로 호출하는 통합 도구(VS Code 확장 프로그램, Open WebUI 등)에 유의미한 변화입니다.
Anthropic이 통합 범위를 자사 모델로 제한함에 따라 ollama launch에서 Claude Desktop이 제거되었습니다.

Gemma 4 추측적 디코딩 (Speculative decoding) (Mac)

Ollama는 이제 Mac에서 Gemma 4 MTP 추측적 디코딩 (speculative decoding)을 지원하며, 코딩 작업 시 Gemma 4 31B 모델에서 2배 이상의 속도 향상을 제공합니다 — 이는 대규모 모델을 실행하는 Apple Silicon 사용자들에게 매우 중요한 변화입니다.

하드웨어 요구 사항

GPU가 필수 사항은 아니지만 성능 차이가 매우 큽니다. 일반적인 규칙은 다음과 같습니다: 사용 가능한 속도를 확보하려면 모델이 VRAM(또는 CPU 전용의 경우 시스템 RAM)에 들어갈 수 있어야 합니다.

모델 크기	권장 VRAM	CPU 전용 사용 가능 여부	실질적 초당 토큰 수 (GPU)
1B–3B (Gemma 3n, Phi-3.5 mini)	4 GB	예	80–120
...

최소 시스템 RAM: 16 GB. 이보다 낮으면 7B 모델조차 디스크로 스왑 (swapped to disk)될 위험이 있으며, 이 경우 CPU 추론 (inference) 속도가 사용 불가능할 정도로 느려집니다. 다른 작업을 하면서 7B 모델을 편안하게 실행하려면 32 GB가 실질적인 기준점입니다.

GPU 옵션에 대한 하드웨어 중심의 상세 분석은 runaihome.com의 GPU 구매 가이드를 참조하세요. 예산 입문 단계: Amazon의 RTX 4060은 350달러 미만의 비용으로 7B 모델을 초당 40–55 토큰 속도로 구동할 수 있습니다. 하드웨어를 전혀 구매하고 싶지 않다면, RunPod에서 GPU 인스턴스를 시간 단위로 대여할 수 있습니다 — 이는 구매를 결정하기 전에 대규모 모델을 테스트하는 데 유용합니다.

설치

Linux/Mac에서의 세 가지 명령어:

curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b
ollama run llama3.1:8b

Windows의 경우: ollama.com에서 설치 프로그램을 다운로드하여 실행한 후 터미널을 엽니다. 동일한 ollama pull 및 ollama run 명령어가 똑같이 작동합니다.

모델 라이브러리는 Docker와 유사한 pull 구문을 사용합니다. llama3.1:8b는 기본적으로 8B Q4_K_M 양자화 (quantized) 버전을 가져옵니다. 특정 양자화 버전을 가져오려면 다음과 같이 입력합니다: ollama pull llama3.1:8b-instruct-q8_0.

REST API는 설치 직후 바로 사용할 수 있습니다:

curl http://localhost:11434/api/generate \
  -d '{"model": "llama3.1:8b", "prompt": "Explain GGUF in one sentence.", "stream": false}'

이러한 API 호환성은 Ollama의 가장 큰 실질적인 장점입니다. Open WebUI, Continue.dev, AnythingLLM 및 수백 개의 다른 도구들이 수정 없이 Ollama에 연결할 수 있습니다.

Ollama가 잘하는 것

마찰 없는 설정 (Zero-friction setup). 대부분의 설정에서 설치부터 첫 응답까지 걸리는 시간은 5분 미만입니다. Python 환경, CUDA 툴킷 (toolkit) 관리, 설정 파일이 필요 없습니다. 모델 라이브러리가 양자화 형식을 처리하므로, 작동하는 모델을 얻기 위해 Q4_K_M이 무엇을 의미하는지 알 필요가 없습니다.

자동 하드웨어 감지. Ollama는 GPU를 감지하고, 필요한 경우 CPU로 전환하며, 수동 레이어 (layer) 설정 없이 모델 로딩을 처리합니다. Apple Silicon, NVIDIA, AMD 모두 별도의 설치 경로 없이 작동합니다.

OpenAI API 호환성. openai.OpenAI(base_url="http://localhost:11434/v1")로 즉시 교체하여 사용할 수 있습니다. 단 한 줄의 변경만으로 모든 OpenAI SDK 클라이언트가 작동합니다.

모델 라이브러리. ollama pull을 통해 100개 이상의 모델을 사용할 수 있습니다. 이 라이브러리에는 최신 모델들(Llama 3.x, Gemma 3, Mistral, DeepSeek, Phi-3, Qwen 2.5, Command R)이 포함되어 있으며, 업스트림 (upstream) 출시 후 며칠 이내에 업데이트됩니다.

멀티 모델 관리. OLLAMA_MAX_LOADED_MODELS (기본값: GPU 개수의 3배)를 통해 여러 모델을 메모리에 동시에 상주(warm)시켜 둘 수 있습니다. 코딩 모델과 채팅 모델 사이를 전환할 때 전체 재로딩이 필요하지 않습니다.

부족한 점

동시성 (Concurrency)이 기본값이 아님

기본적으로 병렬 요청(Parallel requests)은 순차적으로 대기열에 쌓입니다. Ollama는 GPU 여유 공간이 얼마나 남아 있든 상관없이 기본 설정 상태에서는 한 번에 하나의 프롬프트(Prompt)만 처리합니다. 병렬 처리를 활성화하려면 환경 변수(Environment variables)를 명시적으로 설정해야 합니다.

OLLAMA_NUM_PARALLEL=4 ollama serve

OLLAMA_NUM_PARALLEL은 로드된 각 모델이 동시에 처리할 요청 수를 제어합니다. 기본값은 1입니다 (메모리 의존적이며, 고용량 VRAM 시스템에서는 4가 될 수 있습니다). OLLAMA_MAX_QUEUE는 요청이 거부되기 전의 대기열 깊이(Queue depth)를 설정합니다.

튜닝을 거치더라도 Ollama의 처리량(Throughput) 한계는 완만합니다. 다중 사용자 부하가 심한 상황에서, 튜닝된 Ollama 인스턴스는 총 약 40 tokens/second의 정점을 찍는 반면, 동일한 하드웨어에서 vLLM은 약 800 tokens/second를 기록합니다. 이러한 격차는 vLLM이 PagedAttention과 연속 배치(Continuous batching)를 사용하는 반면, Ollama는 그렇지 않기 때문에 발생합니다.

멀티 GPU 모델 분산 (Multi-GPU model distribution)

멀티 GPU 시스템에서 여러 사용자가 동일한 모델을 요청할 때, Ollama는 부하를 사용 가능한 모든 카드에 분산하는 대신 하나의 GPU로 요청을 라우팅(Route)합니다. 하나의 GPU가 요청을 대기열에 쌓는 동안 다른 GPU들은 유휴(Idle) 상태로 남게 됩니다. 이는 GitHub 이슈(GitHub issues)에서 추적되고 있는 알려진 제한 사항입니다.

양자화 형식 고착 (Quantization format lock-in)

Ollama는 GGUF 형식을 독점적으로 사용합니다. 특정 비트 너비(Bit widths)에서 더 나은 품질/속도 트레이드오프(Tradeoff)를 제공할 수 있는 GPTQ, AWQ 또는 exl2 양자화(Quantized) 모델을 실험해보고 싶다면, 다른 도구(llama.cpp를 직접 사용하거나 해당 형식을 지원하는 프레임워크)가 필요합니다. 이는 단순히 모델을 실행하는 것이 아니라 모델 평가(Model evaluation) 작업을 수행하는 경우에 중요한 문제입니다.

추상화 오버헤드 (Abstraction overhead)

Ollama는 llama.cpp를 직접 노출하는 대신 래핑(Wrap)하기 때문에, 작지만 측정 가능한 오버헤드(Overhead)가 추가됩니다. 동일한 하드웨어에서 llama.cpp를 직접 사용하면 토큰 생성 속도가 15~25% 더 높습니다. 대부분의 개인적인 용도에서는 이것이 문제가 되지 않지만, 지연 시간(Latency)에 민감한 프로덕션(Production) 환경에서는 문제가 됩니다.

비교: Ollama vs 주요 대안들