본문으로 건너뛰기

© 2026 Molayo

GitHub릴리즈2026. 06. 20. 20:28

mudler/LocalAI

요약

LocalAI는 LLM, 비전, 음성 등 다양한 모델을 모든 하드웨어에서 실행할 수 있는 오픈 소스 AI 엔진입니다. OpenAI 및 Anthropic API와 호환되며, 필요한 백엔드만 선택적으로 설치할 수 있는 모듈형 구조를 제공합니다.

핵심 포인트

  • OpenAI, Anthropic 등 주요 API와 드롭인 호환 지원
  • NVIDIA, AMD, Intel, Apple Silicon 등 다양한 하드웨어 지원
  • 필요한 백엔드만 설치하는 컴포저블(Composable) 설계
  • RAG, MCP, 도구 사용을 지원하는 내장 AI 에이전트 포함
  • 데이터 유출을 방지하는 개인정보 보호 중심의 로컬 실행

Deutsch | Español | français | 日本語 | 한국어 | Português | Русский | 中文

LocalAI는 오픈 소스 (open-source) AI 엔진입니다. LLM, 비전 (vision), 음성 (voice), 이미지 (image), 비디오 (video) 등 어떤 모델이든 모든 하드웨어에서 실행하세요. GPU가 필요하지 않습니다.

번들이 아닌 작은 코어. 각 백엔드 (backend)는 최상급 엔진 (llama.cpp, vLLM, whisper.cpp, stable-diffusion, MLX...)을 자체 이미지에 담고 있으며, 모델이 필요할 때만 가져옵니다. 사용하지 않는 것은 설치하지 않습니다.

설계 단계부터 결합 가능 (Composable by design): 백엔드는 분리되어 있으며 필요에 따라 가져오므로, 모델에 필요한 것만 설치합니다. 개방적이고 확장 가능 (Open and extensible): 어떤 모델이든 로드하거나, 공개 인터페이스를 사용하여 원하는 언어로 직접 백엔드를 구축할 수 있습니다. 드롭인 API 호환성 (Drop-in API compatibility): 모든 백엔드에서 OpenAI, Anthropic, ElevenLabs API를 지원합니다. 모든 모델, 모든 모달리티 (Any model, any modality): 하나의 API 뒤에서 LLM, 비전, 음성, 이미지, 비디오를 지원합니다. 모든 하드웨어 (Any hardware): NVIDIA, AMD, Intel, Apple Silicon, Vulkan 또는 CPU 전용을 지원합니다. 다중 사용자 준비 완료 (Multi-user ready): API 키 인증, 사용자 할당량 (user quotas), 역할 기반 액세스 (role-based access)를 지원합니다. 내장된 AI 에이전트 (Built-in AI agents): 도구 사용 (tool use), RAG, MCP 및 기술을 갖춘 자율 에이전트. 개인정보 보호 우선 (Privacy-first): 데이터가 귀하의 인프라를 절대 벗어나지 않습니다.

Ettore Di Giacinto가 제작하였으며 LocalAI 팀이 유지 관리합니다.

model-fit-canvas-mode.mp4

Click to see more!

usersquota-1775167475876.mp4

agents.mp4

usage.mp4

quantize-fine-tune.mp4

talk.mp4

참고: DMG는 Apple에 의해 서명되지 않았습니다. 설치 후 다음을 실행하세요:
sudo xattr -d com.apple.quarantine /Applications/LocalAI.app

자세한 내용은 #6268을 참조하세요.

이전에 LocalAI를 실행한 적이 있습니까? 기존 컨테이너를 재시작하려면 다음을 사용하세요:

docker start -i local-ai

docker run -ti --name local-ai -p 8080:8080 localai/localai:latest

# CUDA 13
docker run -ti --name local-ai -p 8080:8080 --gpus all localai/localai:latest-gpu-nvidia-cuda-13
# CUDA 12
...

docker run -ti --name local-ai -p 8080:8080 --device=/dev/kfd --device=/dev/dri --group-add=video localai/localai:latest-gpu-hipblas

docker run -ti --name local-ai -p 8080:8080 --device=/dev/dri/card1 --device=/dev/dri/renderD128 localai/localai:latest-gpu-intel

docker run -ti --name local-ai -p 8080:8080 localai/localai:latest-gpu-vulkan

# 모델 갤러리로부터 (available models는 `local-ai models list` 또는 https://models.localai.io 에서 확인 가능)
local-ai run llama-3.2-1b-instruct:q4_k_m
# Huggingface로부터
...

터미널에서 실행 중인 LocalAI 서버를 테스트하려면, 다른 셸(shell)에서 대화형 채팅 세션을 여세요. 프롬프트 내부에서 /models는 설치된 모델 목록을 나열하며, /model <name>은 모델 간 전환을 수행합니다.

# 터미널 1
local-ai run llama-3.2-1b-instruct:q4_k_m
# 터미널 2
...

자동 백엔드 감지 (Automatic Backend Detection): LocalAI는 사용자의 GPU 성능을 자동으로 감지하고 적절한 백엔드 (backend)를 다운로드합니다. 고급 옵션은 GPU 가속 (GPU Acceleration) 섹션을 참조하세요.

더 자세한 내용은 시작하기 (Getting Started) 가이드를 참조하세요.

2026년 6월: 새로운 실시간 음성 비서 데모 (전체 대화형 음성 루프 및 도구 호출 (tool calling) 기능을 갖춘 Realtime API용 경량 Go 클라이언트)가 추가되었으며, 실시간 LLM / TTS / 전사 (transcription) 파이프라인 단계의 스트리밍 및 구성 가능한 WebRTC ICE 후보 (candidates) 기능이 추가되었습니다. 2026년 6월: 대대적인 음성 기능 강화: parakeet.cpp ASR 엔진이 NeMo와 일치하는 세그먼트 타임스탬프 (segment timestamps)를 지원하며, 다국어 스트리밍 Nemotron-3.5 모델, 동시 전사를 위한 동적 배치 (dynamic batching) 및 CUDA 그래프 (CUDA graphs)가 도입되었습니다. 새로운 CrispASR 백엔드는 멀티 아키텍처 ASR + TTS를 추가하며, 42개 언어에 걸친 60개의 Piper TTS 음성이 갤러리에 추가되었습니다 (요청별 TTS 지침 및 파라미터 포함). 2026년 6월: 새로운 백엔드 및 모델: ggml을 통한 오픈 어휘 객체 탐지 (open-vocabulary object detection)를 위한 locate-anything.cpp, stablediffusion-ggml에서의 Ideogram4 이미지 생성, llama.cpp 비디오 입력, 그리고 MTP 투기적 디코딩 (speculative-decoding) 쌍을 갖춘 Gemma 4 QAT 제품군이 추가되었습니다.

또한 대화형 CLI 채팅 모드와 에이전트 응답 내 RAG 소스 인용 기능이 추가되었습니다.

2026년 6월: 분산 모드 강화: prefix-cache-aware 라우팅, 자동 크기 조정 임베딩/rerank 배치를 지원하는 프로덕션 준비 완료된 요청 라우터, ds4 레이어 분할(layer-split) 분산 추론, NATS JWT 인증 + TLS/mTLS, 그리고 재개 가능한 파일 업로드.

2026년 5월: LocalAI 4.3.0

  • llama.cpp 프롬프트 캐시 기본 활성화 (반복되는 시스템 프롬프트 처리 시간이 분 단위에서 초 단위로 단축), 백엔드 OCI 이미지의 키리스(keyless) cosign 서명, API 키별 + 사용자별 사용량 귀속, 요청별 복제본 라우팅을 지원하는 Distributed v3. 릴리스 노트

2026년 5월: LocalAI 4.2.0

  • LocalAI가 보고 듣습니다: 음성 인식, 얼굴 인식 + 안티스푸핑(antispoofing) 라이브니스(liveness), 화자 분리(speaker diarization). 또한 Ollama API 호환 지원, 비디오 생성, i18n(국제화) 및 관리자 설정 가능 브랜딩이 적용된 UI 재설계, llama.cpp와 기능적으로 동등한 vLLM 지원, 그리고 11개의 새로운 백엔드 추가. 릴리스 노트

2026년 4월: LocalAI 4.1.0

  • LocalAI가 컨트롤 타워가 됩니다: VRAM 인식 스마트 라우팅 + 오토스케일링(autoscaling)을 갖춘 분산 클러스터 모드, OIDC 및 API 키를 지원하는 멀티 유저 플랫폼, 예측 분석을 포함한 사용자별 할당량(quota), TRL을 이용한 UI 내 파인튜닝 (GGUF로 자동 내보내기), 즉석 양자화(on-the-fly quantization) 백엔드, 시각적 파이프라인 에디터. 릴리스 노트

2026년 3월: LocalAI 4.0.0

  • 새로운 Agenthub 커뮤니티 허브를 통한 네이티브 에이전트 오케스트레이션(agentic orchestration), Canvas 모드를 포함한 전체 React UI 재작성, 도구 스트리밍(tool streaming)을 지원하는 MCP Apps + 클라이언트 사이드, WebRTC 실시간 오디오, MLX 분산 지원. 릴리스 노트

2026년 2월: 도구 호출(tool calling)을 지원하는 오디오-투-오디오(audio-to-audio)용 실시간 API, ACE-Step 1.5 지원

2026년 1월: LocalAI 3.10.0— Anthropic API 지원, Open Responses API, 비디오 및 이미지 생성 (LTX-2), 통합 GPU 백엔드, 도구 스트리밍, Moonshine, Pocket-TTS.

릴리스 노트 (Release notes)
2025년 12월: 동적 메모리 리소스 회수기 (Dynamic Memory Resource reclaimer), 자동 멀티 GPU 모델 피팅 (Automatic multi-GPU model fitting) (llama.cpp), Vibevoice 백엔드
2025년 11월: URL을 통한 모델 임포트 (Import models via URL), 다중 채팅 및 히스토리
2025년 10월: 에이전트 역량을 위한 모델 컨텍스트 프로토콜 (Model Context Protocol (MCP)) 지원
2025년 9월: macOS 및 Linux용 신규 런처 (New Launcher), Mac 및 Nvidia L4T에 대한 백엔드 지원 확장, MLX-Audio, WAN 2.2
2025년 8월: Apple Silicon에서 MLX, MLX-VLM, Diffusers, llama.cpp 지원
2025년 7월: 모든 백엔드가 메인 바이너리 외부로 마이그레이션됨 — 경량화된 모듈형 아키텍처 (lightweight, modular architecture)

이전 소식과 전체 릴리스 노트를 확인하려면 GitHub Releases 및 News 페이지를 참조하세요.

  • 텍스트 생성 (Text generation) (llama.cpp, transformers, vllm ... 등 포함)
  • 텍스트 투 오디오 (Text to Audio)
  • 오디오 투 텍스트 (Audio to Text)
  • 이미지 생성 (Image generation)
  • OpenAI 호환 도구 API (OpenAI-compatible tools API)
  • 실시간 API (Realtime API) (Speech-to-speech)
  • 임베딩 생성 (Embeddings generation)
  • 제약 문법 (Constrained grammars)
  • Huggingface에서 모델 다운로드
  • 비전 API (Vision API)
  • 객체 탐지 (Object Detection)
  • 리랭커 API (Reranker API)
  • P2P 추론 (P2P Inferencing)
  • 분산 모드 (Distributed Mode) — PostgreSQL + NATS를 이용한 수평 확장 (Horizontal scaling)
  • 모델 컨텍스트 프로토콜 (Model Context Protocol (MCP))
  • 내장 에이전트 (Built-in Agents) — 도구 사용, RAG, 스킬, SSE 스트리밍 및 에이전트 허브 (Agent Hub)를 갖춘 자율 AI 에이전트
  • 백엔드 갤러리 (Backend Gallery) — OCI 이미지를 통해 백엔드를 즉시 설치/제거
  • 음성 활동 감지 (Voice Activity Detection (Silero-VAD))
  • 통합 WebUI

LocalAI는 llama.cpp, vLLM, SGLang, transformers, whisper.cpp, diffusers, MLX, MLX-VLM 등을 포함하여 60개 이상의 백엔드를 지원합니다. 하드웨어 가속은 NVIDIA (CUDA 12/13), AMD (ROCm), Intel (oneAPI/SYCL), Apple Silicon (Metal), Vulkan, 그리고 NVIDIA Jetson (L4T)에서 사용할 수 있습니다. 모든 백엔드는 백엔드 갤러리에서 즉시 설치할 수 있습니다.

전체 백엔드 및 모델 호환성 표(Backend & Model Compatibility Table)와 GPU 가속 가이드를 참조하세요.

대부분의 백엔드는 동급 최강의 업스트림 엔진을 래핑(wrap)합니다. 그중 일부는 LocalAI 프로젝트 자체에서 개발하고 유지 관리하는 네이티브 C/C++/GGML 엔진(추론 시 Python 미사용)입니다:

백엔드 (Backend)기능
parakeet.cpp캐시 인식 스트리밍 전사 (cache-aware streaming transcription) 기능을 갖춘 NVIDIA NeMo Parakeet ASR (tdt/ctc/rnnt/hybrid)의 C++/GGML 포트
...

또한 우리는 Mixture-of-Experts (MoE) 모델을 위한 텐서별, 레이어별 양자화 레시피인 apex-quant를 유지 관리합니다. 이는 모델의 구조적 희소성 (structural sparsity)을 활용하여 Q8_0 품질과 일치하거나 이를 능가하는 GGUF를 생성하며, 순정 llama.cpp에서 즉시 실행 가능합니다.

  • 문서 (Documentation)
  • LLM 미세 조정 (fine-tuning) 가이드
  • 소스 코드 빌드 (Build from source)
  • Kubernetes 설치
  • 통합 및 커뮤니티 프로젝트
  • 설치 영상 가이드
  • 미디어 및 블로그 포스트
  • 예시 — 실시간 음성 비서 데모 포함 (도구 호출 (tool calling) 기능이 포함된 Realtime API용 Go 클라이언트)

LocalAI는 더 넓은 기여자 커뮤니티와 함께 소수의 인원으로 구성된 팀에 의해 유지 관리됩니다.

Ettore Di Giacinto — 원작자 및 프로젝트 리드
Richard Palethorpe — 유지 관리자

코드를 기여하고, PR (Pull Request)을 검토하며, 이슈 (issue)를 제기하고, Discord에서 사용자를 도와주는 모든 분께 진심으로 감사드립니다. LocalAI는 커뮤니티 주도 프로젝트이며 여러분이 없었다면 존재할 수 없었을 것입니다. 전체 기여자 목록을 확인하세요.

이 저장소 또는 다운스트림 프로젝트의 데이터를 활용하는 경우, 다음과 같이 인용을 고려해 주세요:

@misc{localai,
author = {Ettore Di Giacinto},
title = {LocalAI: The free, Open source OpenAI alternative},
...

LocalAI가 유용하다고 느끼시나요?

후원자(backer) 또는 스폰서가 되어 프로젝트를 지원해 주세요. 귀하의 로고가 귀하의 웹사이트 링크와 함께 여기에 표시됩니다.

CI 비용을 충당하며 이 프로젝트를 지원해 주시는 관대한 스폰서분들과 스폰서 목록에 깊은 감사를 드립니다:

개별 스폰서분들께 특별히 감사드리며, 전체 목록은 GitHub과 buymeacoffee에서 확인할 수 있습니다. 관대한 지원을 해주신 drikster80님께 특별한 감사를 전합니다. 모두 감사합니다!

LocalAI는 Ettore Di Giacinto가 만들고 LocalAI 팀이 유지 관리하는 커뮤니티 주도 프로젝트입니다.

MIT - 저자 Ettore Di Giacinto mudler@localai.io

LocalAI는 커뮤니티에서 이미 제공되는 훌륭한 소프트웨어들의 도움 없이는 구축될 수 없었을 것입니다. 감사합니다!

이것은 커뮤니티 프로젝트입니다. 우리의 기여자들에게 특별한 감사를 전합니다!

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub Trending Go (weekly)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0