mudler/LocalAI

LocalAI는 오픈 소스 (open-source) AI 엔진입니다. LLM, 비전 (vision), 음성 (voice), 이미지 (image), 비디오 (video) 등 어떤 모델이든 모든 하드웨어에서 실행하세요. GPU가 필요하지 않습니다.

번들이 아닌 작은 코어. 각 백엔드 (backend)는 최상급 엔진 (llama.cpp, vLLM, whisper.cpp, stable-diffusion, MLX...)을 자체 이미지에 담고 있으며, 모델이 필요할 때만 가져옵니다. 사용하지 않는 것은 설치하지 않습니다.

설계 단계부터 결합 가능 (Composable by design): 백엔드는 분리되어 있으며 필요에 따라 가져오므로, 모델에 필요한 것만 설치합니다. 개방적이고 확장 가능 (Open and extensible): 어떤 모델이든 로드하거나, 공개 인터페이스를 사용하여 원하는 언어로 직접 백엔드를 구축할 수 있습니다. 드롭인 API 호환성 (Drop-in API compatibility): 모든 백엔드에서 OpenAI, Anthropic, ElevenLabs API를 지원합니다. 모든 모델, 모든 모달리티 (Any model, any modality): 하나의 API 뒤에서 LLM, 비전, 음성, 이미지, 비디오를 지원합니다. 모든 하드웨어 (Any hardware): NVIDIA, AMD, Intel, Apple Silicon, Vulkan 또는 CPU 전용을 지원합니다. 다중 사용자 준비 완료 (Multi-user ready): API 키 인증, 사용자 할당량 (user quotas), 역할 기반 액세스 (role-based access)를 지원합니다. 내장된 AI 에이전트 (Built-in AI agents): 도구 사용 (tool use), RAG, MCP 및 기술을 갖춘 자율 에이전트. 개인정보 보호 우선 (Privacy-first): 데이터가 귀하의 인프라를 절대 벗어나지 않습니다.

Ettore Di Giacinto가 제작하였으며 LocalAI 팀이 유지 관리합니다.

model-fit-canvas-mode.mp4

Click to see more!

usersquota-1775167475876.mp4

agents.mp4

usage.mp4

quantize-fine-tune.mp4

talk.mp4

참고: DMG는 Apple에 의해 서명되지 않았습니다. 설치 후 다음을 실행하세요:
sudo xattr -d com.apple.quarantine /Applications/LocalAI.app

자세한 내용은 #6268을 참조하세요.

이전에 LocalAI를 실행한 적이 있습니까? 기존 컨테이너를 재시작하려면 다음을 사용하세요:

docker start -i local-ai

docker run -ti --name local-ai -p 8080:8080 localai/localai:latest

# CUDA 13
docker run -ti --name local-ai -p 8080:8080 --gpus all localai/localai:latest-gpu-nvidia-cuda-13
# CUDA 12
...

docker run -ti --name local-ai -p 8080:8080 --device=/dev/kfd --device=/dev/dri --group-add=video localai/localai:latest-gpu-hipblas

docker run -ti --name local-ai -p 8080:8080 --device=/dev/dri/card1 --device=/dev/dri/renderD128 localai/localai:latest-gpu-intel

docker run -ti --name local-ai -p 8080:8080 localai/localai:latest-gpu-vulkan

# 모델 갤러리로부터 (available models는 `local-ai models list` 또는 https://models.localai.io 에서 확인 가능)
local-ai run llama-3.2-1b-instruct:q4_k_m
# Huggingface로부터
...

터미널에서 실행 중인 LocalAI 서버를 테스트하려면, 다른 셸(shell)에서 대화형 채팅 세션을 여세요. 프롬프트 내부에서 /models는 설치된 모델 목록을 나열하며, /model <name>은 모델 간 전환을 수행합니다.

# 터미널 1
local-ai run llama-3.2-1b-instruct:q4_k_m
# 터미널 2
...

자동 백엔드 감지 (Automatic Backend Detection): LocalAI는 사용자의 GPU 성능을 자동으로 감지하고 적절한 백엔드 (backend)를 다운로드합니다. 고급 옵션은 GPU 가속 (GPU Acceleration) 섹션을 참조하세요.

더 자세한 내용은 시작하기 (Getting Started) 가이드를 참조하세요.

2026년 6월: 새로운 실시간 음성 비서 데모 (전체 대화형 음성 루프 및 도구 호출 (tool calling) 기능을 갖춘 Realtime API용 경량 Go 클라이언트)가 추가되었으며, 실시간 LLM / TTS / 전사 (transcription) 파이프라인 단계의 스트리밍 및 구성 가능한 WebRTC ICE 후보 (candidates) 기능이 추가되었습니다. 2026년 6월: 대대적인 음성 기능 강화: parakeet.cpp ASR 엔진이 NeMo와 일치하는 세그먼트 타임스탬프 (segment timestamps)를 지원하며, 다국어 스트리밍 Nemotron-3.5 모델, 동시 전사를 위한 동적 배치 (dynamic batching) 및 CUDA 그래프 (CUDA graphs)가 도입되었습니다. 새로운 CrispASR 백엔드는 멀티 아키텍처 ASR + TTS를 추가하며, 42개 언어에 걸친 60개의 Piper TTS 음성이 갤러리에 추가되었습니다 (요청별 TTS 지침 및 파라미터 포함). 2026년 6월: 새로운 백엔드 및 모델: ggml을 통한 오픈 어휘 객체 탐지 (open-vocabulary object detection)를 위한 locate-anything.cpp, stablediffusion-ggml에서의 Ideogram4 이미지 생성, llama.cpp 비디오 입력, 그리고 MTP 투기적 디코딩 (speculative-decoding) 쌍을 갖춘 Gemma 4 QAT 제품군이 추가되었습니다.

또한 대화형 CLI 채팅 모드와 에이전트 응답 내 RAG 소스 인용 기능이 추가되었습니다.

2026년 6월: 분산 모드 강화: prefix-cache-aware 라우팅, 자동 크기 조정 임베딩/rerank 배치를 지원하는 프로덕션 준비 완료된 요청 라우터, ds4 레이어 분할(layer-split) 분산 추론, NATS JWT 인증 + TLS/mTLS, 그리고 재개 가능한 파일 업로드.

2026년 5월: LocalAI 4.3.0

llama.cpp 프롬프트 캐시 기본 활성화 (반복되는 시스템 프롬프트 처리 시간이 분 단위에서 초 단위로 단축), 백엔드 OCI 이미지의 키리스(keyless) cosign 서명, API 키별 + 사용자별 사용량 귀속, 요청별 복제본 라우팅을 지원하는 Distributed v3. 릴리스 노트

2026년 5월: LocalAI 4.2.0

LocalAI가 보고 듣습니다: 음성 인식, 얼굴 인식 + 안티스푸핑(antispoofing) 라이브니스(liveness), 화자 분리(speaker diarization). 또한 Ollama API 호환 지원, 비디오 생성, i18n(국제화) 및 관리자 설정 가능 브랜딩이 적용된 UI 재설계, llama.cpp와 기능적으로 동등한 vLLM 지원, 그리고 11개의 새로운 백엔드 추가. 릴리스 노트

2026년 4월: LocalAI 4.1.0

LocalAI가 컨트롤 타워가 됩니다: VRAM 인식 스마트 라우팅 + 오토스케일링(autoscaling)을 갖춘 분산 클러스터 모드, OIDC 및 API 키를 지원하는 멀티 유저 플랫폼, 예측 분석을 포함한 사용자별 할당량(quota), TRL을 이용한 UI 내 파인튜닝 (GGUF로 자동 내보내기), 즉석 양자화(on-the-fly quantization) 백엔드, 시각적 파이프라인 에디터. 릴리스 노트

2026년 3월: LocalAI 4.0.0

새로운 Agenthub 커뮤니티 허브를 통한 네이티브 에이전트 오케스트레이션(agentic orchestration), Canvas 모드를 포함한 전체 React UI 재작성, 도구 스트리밍(tool streaming)을 지원하는 MCP Apps + 클라이언트 사이드, WebRTC 실시간 오디오, MLX 분산 지원. 릴리스 노트

2026년 2월: 도구 호출(tool calling)을 지원하는 오디오-투-오디오(audio-to-audio)용 실시간 API, ACE-Step 1.5 지원

2026년 1월: LocalAI 3.10.0— Anthropic API 지원, Open Responses API, 비디오 및 이미지 생성 (LTX-2), 통합 GPU 백엔드, 도구 스트리밍, Moonshine, Pocket-TTS.

릴리스 노트 (Release notes)
2025년 12월: 동적 메모리 리소스 회수기 (Dynamic Memory Resource reclaimer), 자동 멀티 GPU 모델 피팅 (Automatic multi-GPU model fitting) (llama.cpp), Vibevoice 백엔드
2025년 11월: URL을 통한 모델 임포트 (Import models via URL), 다중 채팅 및 히스토리
2025년 10월: 에이전트 역량을 위한 모델 컨텍스트 프로토콜 (Model Context Protocol (MCP)) 지원
2025년 9월: macOS 및 Linux용 신규 런처 (New Launcher), Mac 및 Nvidia L4T에 대한 백엔드 지원 확장, MLX-Audio, WAN 2.2
2025년 8월: Apple Silicon에서 MLX, MLX-VLM, Diffusers, llama.cpp 지원
2025년 7월: 모든 백엔드가 메인 바이너리 외부로 마이그레이션됨 — 경량화된 모듈형 아키텍처 (lightweight, modular architecture)

이전 소식과 전체 릴리스 노트를 확인하려면 GitHub Releases 및 News 페이지를 참조하세요.

텍스트 생성 (Text generation) (llama.cpp, transformers, vllm ... 등 포함)
텍스트 투 오디오 (Text to Audio)
오디오 투 텍스트 (Audio to Text)
이미지 생성 (Image generation)
OpenAI 호환 도구 API (OpenAI-compatible tools API)
실시간 API (Realtime API) (Speech-to-speech)
임베딩 생성 (Embeddings generation)
제약 문법 (Constrained grammars)
Huggingface에서 모델 다운로드
비전 API (Vision API)
객체 탐지 (Object Detection)
리랭커 API (Reranker API)
P2P 추론 (P2P Inferencing)
분산 모드 (Distributed Mode) — PostgreSQL + NATS를 이용한 수평 확장 (Horizontal scaling)
모델 컨텍스트 프로토콜 (Model Context Protocol (MCP))
내장 에이전트 (Built-in Agents) — 도구 사용, RAG, 스킬, SSE 스트리밍 및 에이전트 허브 (Agent Hub)를 갖춘 자율 AI 에이전트
백엔드 갤러리 (Backend Gallery) — OCI 이미지를 통해 백엔드를 즉시 설치/제거
음성 활동 감지 (Voice Activity Detection (Silero-VAD))
통합 WebUI

LocalAI는 llama.cpp, vLLM, SGLang, transformers, whisper.cpp, diffusers, MLX, MLX-VLM 등을 포함하여 60개 이상의 백엔드를 지원합니다. 하드웨어 가속은 NVIDIA (CUDA 12/13), AMD (ROCm), Intel (oneAPI/SYCL), Apple Silicon (Metal), Vulkan, 그리고 NVIDIA Jetson (L4T)에서 사용할 수 있습니다. 모든 백엔드는 백엔드 갤러리에서 즉시 설치할 수 있습니다.

전체 백엔드 및 모델 호환성 표(Backend & Model Compatibility Table)와 GPU 가속 가이드를 참조하세요.

대부분의 백엔드는 동급 최강의 업스트림 엔진을 래핑(wrap)합니다. 그중 일부는 LocalAI 프로젝트 자체에서 개발하고 유지 관리하는 네이티브 C/C++/GGML 엔진(추론 시 Python 미사용)입니다:

백엔드 (Backend)	기능
parakeet.cpp	캐시 인식 스트리밍 전사 (cache-aware streaming transcription) 기능을 갖춘 NVIDIA NeMo Parakeet ASR (tdt/ctc/rnnt/hybrid)의 C++/GGML 포트
...

또한 우리는 Mixture-of-Experts (MoE) 모델을 위한 텐서별, 레이어별 양자화 레시피인 apex-quant를 유지 관리합니다. 이는 모델의 구조적 희소성 (structural sparsity)을 활용하여 Q8_0 품질과 일치하거나 이를 능가하는 GGUF를 생성하며, 순정 llama.cpp에서 즉시 실행 가능합니다.

문서 (Documentation)
LLM 미세 조정 (fine-tuning) 가이드
소스 코드 빌드 (Build from source)
Kubernetes 설치
통합 및 커뮤니티 프로젝트
설치 영상 가이드
미디어 및 블로그 포스트
예시 — 실시간 음성 비서 데모 포함 (도구 호출 (tool calling) 기능이 포함된 Realtime API용 Go 클라이언트)

LocalAI는 더 넓은 기여자 커뮤니티와 함께 소수의 인원으로 구성된 팀에 의해 유지 관리됩니다.

Ettore Di Giacinto — 원작자 및 프로젝트 리드
Richard Palethorpe — 유지 관리자

코드를 기여하고, PR (Pull Request)을 검토하며, 이슈 (issue)를 제기하고, Discord에서 사용자를 도와주는 모든 분께 진심으로 감사드립니다. LocalAI는 커뮤니티 주도 프로젝트이며 여러분이 없었다면 존재할 수 없었을 것입니다. 전체 기여자 목록을 확인하세요.

이 저장소 또는 다운스트림 프로젝트의 데이터를 활용하는 경우, 다음과 같이 인용을 고려해 주세요:

@misc{localai,
author = {Ettore Di Giacinto},
title = {LocalAI: The free, Open source OpenAI alternative},
...

LocalAI가 유용하다고 느끼시나요?

후원자(backer) 또는 스폰서가 되어 프로젝트를 지원해 주세요. 귀하의 로고가 귀하의 웹사이트 링크와 함께 여기에 표시됩니다.

CI 비용을 충당하며 이 프로젝트를 지원해 주시는 관대한 스폰서분들과 스폰서 목록에 깊은 감사를 드립니다:

개별 스폰서분들께 특별히 감사드리며, 전체 목록은 GitHub과 buymeacoffee에서 확인할 수 있습니다. 관대한 지원을 해주신 drikster80님께 특별한 감사를 전합니다. 모두 감사합니다!

LocalAI는 Ettore Di Giacinto가 만들고 LocalAI 팀이 유지 관리하는 커뮤니티 주도 프로젝트입니다.

MIT - 저자 Ettore Di Giacinto mudler@localai.io

LocalAI는 커뮤니티에서 이미 제공되는 훌륭한 소프트웨어들의 도움 없이는 구축될 수 없었을 것입니다. 감사합니다!

llama.cpp
https://github.com/tatsu-lab/stanford_alpaca
초기 아이디어를 제공한 https://github.com/cornelk/llama-go
https://github.com/antimatter15/alpaca.cpp
https://github.com/EdVince/Stable-Diffusion-NCNN
https://github.com/ggerganov/whisper.cpp
https://github.com/rhasspy/piper
MLX 분산 자동 병렬 샤딩 (distributed auto-parallel sharding) 구현을 위한 exo

이것은 커뮤니티 프로젝트입니다. 우리의 기여자들에게 특별한 감사를 전합니다!