mudler/LocalAI
요약
LocalAI는 LLM, 비전, 음성 등 다양한 모델을 모든 하드웨어에서 실행할 수 있는 오픈 소스 AI 엔진입니다. OpenAI 및 Anthropic API와 호환되며, 필요한 백엔드만 선택적으로 설치할 수 있는 모듈형 구조를 제공합니다.
핵심 포인트
- OpenAI, Anthropic 등 주요 API와 드롭인 호환 지원
- NVIDIA, AMD, Intel, Apple Silicon 등 다양한 하드웨어 지원
- 필요한 백엔드만 설치하는 컴포저블(Composable) 설계
- RAG, MCP, 도구 사용을 지원하는 내장 AI 에이전트 포함
- 데이터 유출을 방지하는 개인정보 보호 중심의 로컬 실행
Deutsch | Español | français | 日本語 | 한국어 | Português | Русский | 中文
LocalAI는 오픈 소스 (open-source) AI 엔진입니다. LLM, 비전 (vision), 음성 (voice), 이미지 (image), 비디오 (video) 등 어떤 모델이든 모든 하드웨어에서 실행하세요. GPU가 필요하지 않습니다.
번들이 아닌 작은 코어. 각 백엔드 (backend)는 최상급 엔진 (llama.cpp, vLLM, whisper.cpp, stable-diffusion, MLX...)을 자체 이미지에 담고 있으며, 모델이 필요할 때만 가져옵니다. 사용하지 않는 것은 설치하지 않습니다.
설계 단계부터 결합 가능 (Composable by design): 백엔드는 분리되어 있으며 필요에 따라 가져오므로, 모델에 필요한 것만 설치합니다. 개방적이고 확장 가능 (Open and extensible): 어떤 모델이든 로드하거나, 공개 인터페이스를 사용하여 원하는 언어로 직접 백엔드를 구축할 수 있습니다. 드롭인 API 호환성 (Drop-in API compatibility): 모든 백엔드에서 OpenAI, Anthropic, ElevenLabs API를 지원합니다. 모든 모델, 모든 모달리티 (Any model, any modality): 하나의 API 뒤에서 LLM, 비전, 음성, 이미지, 비디오를 지원합니다. 모든 하드웨어 (Any hardware): NVIDIA, AMD, Intel, Apple Silicon, Vulkan 또는 CPU 전용을 지원합니다. 다중 사용자 준비 완료 (Multi-user ready): API 키 인증, 사용자 할당량 (user quotas), 역할 기반 액세스 (role-based access)를 지원합니다. 내장된 AI 에이전트 (Built-in AI agents): 도구 사용 (tool use), RAG, MCP 및 기술을 갖춘 자율 에이전트. 개인정보 보호 우선 (Privacy-first): 데이터가 귀하의 인프라를 절대 벗어나지 않습니다.
Ettore Di Giacinto가 제작하였으며 LocalAI 팀이 유지 관리합니다.
model-fit-canvas-mode.mp4
Click to see more!
usersquota-1775167475876.mp4
agents.mp4
usage.mp4
quantize-fine-tune.mp4
talk.mp4
참고: DMG는 Apple에 의해 서명되지 않았습니다. 설치 후 다음을 실행하세요:
sudo xattr -d com.apple.quarantine /Applications/LocalAI.app
자세한 내용은 #6268을 참조하세요.
이전에 LocalAI를 실행한 적이 있습니까? 기존 컨테이너를 재시작하려면 다음을 사용하세요:
docker start -i local-ai
docker run -ti --name local-ai -p 8080:8080 localai/localai:latest
# CUDA 13
docker run -ti --name local-ai -p 8080:8080 --gpus all localai/localai:latest-gpu-nvidia-cuda-13
# CUDA 12
...
docker run -ti --name local-ai -p 8080:8080 --device=/dev/kfd --device=/dev/dri --group-add=video localai/localai:latest-gpu-hipblas
docker run -ti --name local-ai -p 8080:8080 --device=/dev/dri/card1 --device=/dev/dri/renderD128 localai/localai:latest-gpu-intel
docker run -ti --name local-ai -p 8080:8080 localai/localai:latest-gpu-vulkan
# 모델 갤러리로부터 (available models는 `local-ai models list` 또는 https://models.localai.io 에서 확인 가능)
local-ai run llama-3.2-1b-instruct:q4_k_m
# Huggingface로부터
...
터미널에서 실행 중인 LocalAI 서버를 테스트하려면, 다른 셸(shell)에서 대화형 채팅 세션을 여세요. 프롬프트 내부에서 /models는 설치된 모델 목록을 나열하며, /model <name>은 모델 간 전환을 수행합니다.
# 터미널 1
local-ai run llama-3.2-1b-instruct:q4_k_m
# 터미널 2
...
자동 백엔드 감지 (Automatic Backend Detection): LocalAI는 사용자의 GPU 성능을 자동으로 감지하고 적절한 백엔드 (backend)를 다운로드합니다. 고급 옵션은 GPU 가속 (GPU Acceleration) 섹션을 참조하세요.
더 자세한 내용은 시작하기 (Getting Started) 가이드를 참조하세요.
2026년 6월: 새로운 실시간 음성 비서 데모 (전체 대화형 음성 루프 및 도구 호출 (tool calling) 기능을 갖춘 Realtime API용 경량 Go 클라이언트)가 추가되었으며, 실시간 LLM / TTS / 전사 (transcription) 파이프라인 단계의 스트리밍 및 구성 가능한 WebRTC ICE 후보 (candidates) 기능이 추가되었습니다. 2026년 6월: 대대적인 음성 기능 강화: parakeet.cpp ASR 엔진이 NeMo와 일치하는 세그먼트 타임스탬프 (segment timestamps)를 지원하며, 다국어 스트리밍 Nemotron-3.5 모델, 동시 전사를 위한 동적 배치 (dynamic batching) 및 CUDA 그래프 (CUDA graphs)가 도입되었습니다. 새로운 CrispASR 백엔드는 멀티 아키텍처 ASR + TTS를 추가하며, 42개 언어에 걸친 60개의 Piper TTS 음성이 갤러리에 추가되었습니다 (요청별 TTS 지침 및 파라미터 포함). 2026년 6월: 새로운 백엔드 및 모델: ggml을 통한 오픈 어휘 객체 탐지 (open-vocabulary object detection)를 위한 locate-anything.cpp, stablediffusion-ggml에서의 Ideogram4 이미지 생성, llama.cpp 비디오 입력, 그리고 MTP 투기적 디코딩 (speculative-decoding) 쌍을 갖춘 Gemma 4 QAT 제품군이 추가되었습니다.
또한 대화형 CLI 채팅 모드와 에이전트 응답 내 RAG 소스 인용 기능이 추가되었습니다.
2026년 6월: 분산 모드 강화: prefix-cache-aware 라우팅, 자동 크기 조정 임베딩/rerank 배치를 지원하는 프로덕션 준비 완료된 요청 라우터, ds4 레이어 분할(layer-split) 분산 추론, NATS JWT 인증 + TLS/mTLS, 그리고 재개 가능한 파일 업로드.
2026년 5월: LocalAI 4.3.0
llama.cpp프롬프트 캐시 기본 활성화 (반복되는 시스템 프롬프트 처리 시간이 분 단위에서 초 단위로 단축), 백엔드 OCI 이미지의 키리스(keyless) cosign 서명, API 키별 + 사용자별 사용량 귀속, 요청별 복제본 라우팅을 지원하는 Distributed v3. 릴리스 노트
2026년 5월: LocalAI 4.2.0
- LocalAI가 보고 듣습니다: 음성 인식, 얼굴 인식 + 안티스푸핑(antispoofing) 라이브니스(liveness), 화자 분리(speaker diarization). 또한 Ollama API 호환 지원, 비디오 생성, i18n(국제화) 및 관리자 설정 가능 브랜딩이 적용된 UI 재설계, llama.cpp와 기능적으로 동등한 vLLM 지원, 그리고 11개의 새로운 백엔드 추가. 릴리스 노트
2026년 4월: LocalAI 4.1.0
- LocalAI가 컨트롤 타워가 됩니다: VRAM 인식 스마트 라우팅 + 오토스케일링(autoscaling)을 갖춘 분산 클러스터 모드, OIDC 및 API 키를 지원하는 멀티 유저 플랫폼, 예측 분석을 포함한 사용자별 할당량(quota), TRL을 이용한 UI 내 파인튜닝 (GGUF로 자동 내보내기), 즉석 양자화(on-the-fly quantization) 백엔드, 시각적 파이프라인 에디터. 릴리스 노트
2026년 3월: LocalAI 4.0.0
- 새로운 Agenthub 커뮤니티 허브를 통한 네이티브 에이전트 오케스트레이션(agentic orchestration), Canvas 모드를 포함한 전체 React UI 재작성, 도구 스트리밍(tool streaming)을 지원하는 MCP Apps + 클라이언트 사이드, WebRTC 실시간 오디오, MLX 분산 지원. 릴리스 노트
2026년 2월: 도구 호출(tool calling)을 지원하는 오디오-투-오디오(audio-to-audio)용 실시간 API, ACE-Step 1.5 지원
2026년 1월: LocalAI 3.10.0— Anthropic API 지원, Open Responses API, 비디오 및 이미지 생성 (LTX-2), 통합 GPU 백엔드, 도구 스트리밍, Moonshine, Pocket-TTS.
릴리스 노트 (Release notes)
2025년 12월: 동적 메모리 리소스 회수기 (Dynamic Memory Resource reclaimer), 자동 멀티 GPU 모델 피팅 (Automatic multi-GPU model fitting) (llama.cpp), Vibevoice 백엔드
2025년 11월: URL을 통한 모델 임포트 (Import models via URL), 다중 채팅 및 히스토리
2025년 10월: 에이전트 역량을 위한 모델 컨텍스트 프로토콜 (Model Context Protocol (MCP)) 지원
2025년 9월: macOS 및 Linux용 신규 런처 (New Launcher), Mac 및 Nvidia L4T에 대한 백엔드 지원 확장, MLX-Audio, WAN 2.2
2025년 8월: Apple Silicon에서 MLX, MLX-VLM, Diffusers, llama.cpp 지원
2025년 7월: 모든 백엔드가 메인 바이너리 외부로 마이그레이션됨 — 경량화된 모듈형 아키텍처 (lightweight, modular architecture)
이전 소식과 전체 릴리스 노트를 확인하려면 GitHub Releases 및 News 페이지를 참조하세요.
- 텍스트 생성 (Text generation) (
llama.cpp,transformers,vllm... 등 포함) - 텍스트 투 오디오 (Text to Audio)
- 오디오 투 텍스트 (Audio to Text)
- 이미지 생성 (Image generation)
- OpenAI 호환 도구 API (OpenAI-compatible tools API)
- 실시간 API (Realtime API) (Speech-to-speech)
- 임베딩 생성 (Embeddings generation)
- 제약 문법 (Constrained grammars)
- Huggingface에서 모델 다운로드
- 비전 API (Vision API)
- 객체 탐지 (Object Detection)
- 리랭커 API (Reranker API)
- P2P 추론 (P2P Inferencing)
- 분산 모드 (Distributed Mode) — PostgreSQL + NATS를 이용한 수평 확장 (Horizontal scaling)
- 모델 컨텍스트 프로토콜 (Model Context Protocol (MCP))
- 내장 에이전트 (Built-in Agents) — 도구 사용, RAG, 스킬, SSE 스트리밍 및 에이전트 허브 (Agent Hub)를 갖춘 자율 AI 에이전트
- 백엔드 갤러리 (Backend Gallery) — OCI 이미지를 통해 백엔드를 즉시 설치/제거
- 음성 활동 감지 (Voice Activity Detection (Silero-VAD))
- 통합 WebUI
LocalAI는 llama.cpp, vLLM, SGLang, transformers, whisper.cpp, diffusers, MLX, MLX-VLM 등을 포함하여 60개 이상의 백엔드를 지원합니다. 하드웨어 가속은 NVIDIA (CUDA 12/13), AMD (ROCm), Intel (oneAPI/SYCL), Apple Silicon (Metal), Vulkan, 그리고 NVIDIA Jetson (L4T)에서 사용할 수 있습니다. 모든 백엔드는 백엔드 갤러리에서 즉시 설치할 수 있습니다.
전체 백엔드 및 모델 호환성 표(Backend & Model Compatibility Table)와 GPU 가속 가이드를 참조하세요.
대부분의 백엔드는 동급 최강의 업스트림 엔진을 래핑(wrap)합니다. 그중 일부는 LocalAI 프로젝트 자체에서 개발하고 유지 관리하는 네이티브 C/C++/GGML 엔진(추론 시 Python 미사용)입니다:
| 백엔드 (Backend) | 기능 |
|---|---|
| parakeet.cpp | 캐시 인식 스트리밍 전사 (cache-aware streaming transcription) 기능을 갖춘 NVIDIA NeMo Parakeet ASR (tdt/ctc/rnnt/hybrid)의 C++/GGML 포트 |
| ... |
또한 우리는 Mixture-of-Experts (MoE) 모델을 위한 텐서별, 레이어별 양자화 레시피인 apex-quant를 유지 관리합니다. 이는 모델의 구조적 희소성 (structural sparsity)을 활용하여 Q8_0 품질과 일치하거나 이를 능가하는 GGUF를 생성하며, 순정 llama.cpp에서 즉시 실행 가능합니다.
- 문서 (Documentation)
- LLM 미세 조정 (fine-tuning) 가이드
- 소스 코드 빌드 (Build from source)
- Kubernetes 설치
- 통합 및 커뮤니티 프로젝트
- 설치 영상 가이드
- 미디어 및 블로그 포스트
- 예시 — 실시간 음성 비서 데모 포함 (도구 호출 (tool calling) 기능이 포함된 Realtime API용 Go 클라이언트)
LocalAI는 더 넓은 기여자 커뮤니티와 함께 소수의 인원으로 구성된 팀에 의해 유지 관리됩니다.
Ettore Di Giacinto — 원작자 및 프로젝트 리드
Richard Palethorpe — 유지 관리자
코드를 기여하고, PR (Pull Request)을 검토하며, 이슈 (issue)를 제기하고, Discord에서 사용자를 도와주는 모든 분께 진심으로 감사드립니다. LocalAI는 커뮤니티 주도 프로젝트이며 여러분이 없었다면 존재할 수 없었을 것입니다. 전체 기여자 목록을 확인하세요.
이 저장소 또는 다운스트림 프로젝트의 데이터를 활용하는 경우, 다음과 같이 인용을 고려해 주세요:
@misc{localai,
author = {Ettore Di Giacinto},
title = {LocalAI: The free, Open source OpenAI alternative},
...
LocalAI가 유용하다고 느끼시나요?
후원자(backer) 또는 스폰서가 되어 프로젝트를 지원해 주세요. 귀하의 로고가 귀하의 웹사이트 링크와 함께 여기에 표시됩니다.
CI 비용을 충당하며 이 프로젝트를 지원해 주시는 관대한 스폰서분들과 스폰서 목록에 깊은 감사를 드립니다:
개별 스폰서분들께 특별히 감사드리며, 전체 목록은 GitHub과 buymeacoffee에서 확인할 수 있습니다. 관대한 지원을 해주신 drikster80님께 특별한 감사를 전합니다. 모두 감사합니다!
LocalAI는 Ettore Di Giacinto가 만들고 LocalAI 팀이 유지 관리하는 커뮤니티 주도 프로젝트입니다.
MIT - 저자 Ettore Di Giacinto mudler@localai.io
LocalAI는 커뮤니티에서 이미 제공되는 훌륭한 소프트웨어들의 도움 없이는 구축될 수 없었을 것입니다. 감사합니다!
- llama.cpp
- https://github.com/tatsu-lab/stanford_alpaca
- 초기 아이디어를 제공한 https://github.com/cornelk/llama-go
- https://github.com/antimatter15/alpaca.cpp
- https://github.com/EdVince/Stable-Diffusion-NCNN
- https://github.com/ggerganov/whisper.cpp
- https://github.com/rhasspy/piper
- MLX 분산 자동 병렬 샤딩 (distributed auto-parallel sharding) 구현을 위한 exo
이것은 커뮤니티 프로젝트입니다. 우리의 기여자들에게 특별한 감사를 전합니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Go (weekly)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기