Show HN: Lemonade: GPU 및 NPU 가속을 통해 로컬에서 LLM 실행하기
요약
Lemonade는 GPU 및 NPU 가속을 활용하여 로컬에서 LLM을 실행할 수 있는 무료 및 프라이빗 AI 서버입니다. OpenAI, Anthropic, Ollama API와 호환되며, 텍스트, 이미지, 음성 등 멀티모달 모델을 지원합니다.
핵심 포인트
- GPU, NPU, CPU를 활용한 로컬 AI 추론 지원
- OpenAI 및 Anthropic API와 호환되는 서버 기능 제공
- AMD Ryzen AI 및 Radeon 최적화 포함
- 텍스트, 이미지, 음성 생성을 위한 멀티모달 지원
- Windows, Linux, macOS 및 모바일 환경 지원
Lemonade는 클라우드 API와 동일한 기능을 제공하면서도 100% 무료이며 프라이빗한 로컬 AI 서버입니다. 여러분의 NPU 및 GPU를 사용하여 채팅, 코딩, 음성 및 이미지 생성을 위한 최신 모델을 사용해 보세요.
Lemonade는 두 가지 방식으로 제공됩니다:
Lemonade Server는 표준 OpenAI, Anthropic 및 Ollama API를 사용하여 수백 개의 훌륭한 앱에 연결할 수 있는 서비스를 설치합니다. Embeddable Lemonade는 사용자의 PC에 맞춰 자동 최적화되는 멀티모달 (multi-modal) 로컬 AI를 제공하기 위해 여러분의 애플리케이션에 패키징할 수 있는 휴대용 바이너리입니다.
이 프로젝트는 모든 PC를 위해 커뮤니티가 구축하였으며, Ryzen AI, Radeon 및 Strix Halo PC에서 최대한의 성능을 끌어내기 위해 AMD 엔지니어들의 최적화가 포함되어 있습니다.
설치 (Install): Windows · Linux · macOS · Docker · Source
모델 가져오기 (Get Models): Model Manager를 통해 찾아보고 다운로드하세요
생성 (Generate): 채팅, 이미지 생성, 음성 생성 등을 위한 내장 인터페이스로 모델을 테스트해 보세요
모바일 (Mobile): Lemonade를 휴대하세요: iOS · Android · Source
연결 (Connect): 즐겨 사용하는 앱과 Lemonade를 함께 사용하세요:
여러분의 앱을 여기에 소개하고 싶으신가요? 마켓플레이스 PR을 제출해 주세요!
| 플랫폼 (Platform) | 빌드 (Build) |
|---|
Gemma와 실행 및 채팅하기:
lemonade run Gemma-4-E2B-it-GGUF
Lemonade 모델로 코딩하기:
lemonade launch claude
멀티모달리티 (Multi-modality):
# 이미지 생성 (image gen)
lemonade run SDXL-Turbo
# 음성 생성 (speech gen)
...
사용 가능한 모델을 확인하고 다운로드하려면:
lemonade list
lemonade pull Gemma-4-E2B-it-GGUF
PC에서 사용 가능한 백엔드 (backends)를 확인하려면:
lemonade backends
하이브리드 설정을 위해, Lemonade는 로컬 모델과 함께 모든 OpenAI 호환 클라우드 제공업체(Fireworks, OpenAI, OpenRouter, Together, …)로 라우팅할 수도 있습니다 — Cloud Offload를 참조하세요. (실험적 기능.)
Lemonade는 CPU, GPU 및 NPU 전반에 걸쳐 매우 다양한 LLM (GGUF, FLM, 및 ONNX), whisper, stable diffusion 등의 모델을 지원합니다.
lemonade pull을 사용하거나 내장된 Model Manager를 사용하여 모델을 다운로드하세요. Hugging Face에서 커스텀 GGUF/ONNX 모델을 가져올 수도 있습니다.
Lemonade는 LLM, 음성(Speech), TTS(Text-to-speech), 그리고 이미지 생성(Image generation)을 위해 여러 추론 엔진(Inference engine)을 지원하며, 각 엔진은 고유한 백엔드(Backend)와 하드웨어 요구 사항을 가집니다.
| 모달리티 (Modality) | 엔진 (Engine) | 백엔드 (Backend) | 장치 (Device) | OS |
|---|---|---|---|---|
| 텍스트 생성 (Text generation) | llamacpp | system | x86_64 / ARM64 CPU, GPU | Linux |
metal | Apple Silicon GPU | macOS | ||
cuda | NVIDIA GPUs (Turing 또는 그 이후 버전)** | Windows, Linux | ||
vulkan | x86_64 CPU, AMD iGPU, AMD dGPU; ARM64 CPU/GPU (Linux) | Windows, Linux | ||
rocm | 지원되는 AMD ROCm iGPU/dGPU 제품군* | Windows, Linux | ||
cpu | x86_64 CPU; ARM64 CPU (Linux) | Windows, Linux | ||
flm | npu | XDNA2 NPU | Windows, Linux | |
ryzenai-llm | npu | XDNA2 NPU | Windows | |
vllm (실험적) | rocm | Strix Halo iGPU (gfx1151) | Linux | |
| 음성-텍스트 변환 (Speech-to-text) | whispercpp | npu | XDNA2 NPU | Windows |
rocm | 지원되는 AMD ROCm iGPU/dGPU 제품군* | Windows, Linux | ||
vulkan | x86_64 CPU | Windows, Linux | ||
cpu | x86_64 CPU | Windows, Linux | ||
metal | Apple Silicon GPU | macOS | ||
moonshine | cpu | x86_64 / arm64 CPU | Windows, Linux, macOS | |
| 텍스트-음성 변환 (Text-to-speech) | kokoro | cpu | x86_64 CPU | Windows, Linux |
metal | Apple Silicon GPU | macOS | ||
| 이미지 생성 (Image generation) | sd-cpp | rocm | 지원되는 AMD ROCm iGPU/dGPU 제품군* | Windows, Linux |
cuda | NVIDIA GPUs (Turing 또는 그 이후 버전)** | Linux | ||
vulkan | Vulkan 지원 GPU | Windows, Linux | ||
cpu | x86_64 CPU | Windows, Linux | ||
metal | Apple Silicon GPU | macOS |
사용자의 기기에서 정확히 어떤 레시피/백엔드가 지원되는지 확인하려면 다음을 실행하세요:
lemonade backends
** 지원되는 AMD ROCm 플랫폼* 확인
| 아키텍처 (Architecture) | 플랫폼 지원 (Platform Support) | GPU 모델 (GPU Models) |
|---|---|---|
| gfx1151 (STX Halo) | Windows, Ubuntu | Ryzen AI MAX+ Pro 395 |
| gfx120X (RDNA4) | Windows, Ubuntu | Radeon AI PRO R9700, RX 9070 XT/GRE/9070, RX 9060 XT |
| gfx110X (RDNA3) | Windows, Ubuntu | Radeon PRO W7900/W7800/W7700/V710, RX 7900 XTX/XT/GRE, RX 7800 XT, RX 7700 XT |
*** 지원되는 NVIDIA CUDA 플랫폼 확인*
| Compute Capability | Architecture | GPU Models |
|---|---|---|
| sm_75 | Turing | RTX 20-series, GTX 16-series, T4 |
| sm_80 / sm_86 | Ampere | RTX 30-series, A100, A40 |
| sm_89 | Ada Lovelace | RTX 40-series, L40, L4 |
| sm_90 | Hopper | H100, H200 |
| sm_100 / sm_120 | Blackwell | RTX 50-series, B100, B200 |
Lemonade의 로드맵은 여러 작업 그룹(working groups)에 의해 정의됩니다. 각 그룹의 목표와 로드맵을 알아보려면 여기 랜딩 페이지를 방문하세요.
Embeddable Lemonade는 여러분의 앱에 번들로 포함할 수 있는 Lemonade의 바이너리(binary) 버전으로, 휴대 가능하고 자동 최적화되는 멀티모달 (multi-modal) 로컬 AI 스택을 제공합니다. 이를 통해 사용자는 Lemonade 설치 프로그램, 브랜딩 또는 텔레메트리 (telemetry) 없이 여러분의 앱에만 집중할 수 있습니다.
Embeddable Lemonade 가이드를 확인해 보세요.
기본 URL(base URL)을 http://localhost:13305/v1로 설정하면 모든 OpenAI 호환 클라이언트 라이브러리를 사용할 수 있습니다. 다양한 언어별 공식 및 인기 OpenAI 클라이언트를 정리한 표는 아래와 같습니다.
원하는 언어를 자유롭게 선택하여 사용하세요.
| Python | C++ | Java | C# | Node.js | Go | Ruby | Rust | PHP |
|---|---|---|---|---|---|---|---|---|
| openai-python | openai-cpp | openai-java | openai-dotnet | openai-node | go-openai | ruby-openai | async-openai | openai-php |
from openai import OpenAI
# Lemonade 서버를 사용하도록 클라이언트 초기화
client = OpenAI(
...
사용 가능한 API와 Lemonade를 여러분의 애플리케이션에 임베딩(embed)하는 방법에 대해 자세히 알아보려면 클릭하세요.
자주 묻는 질문을 읽어보려면 FAQ 가이드를 참조하세요.
Lemonade는 로컬 AI 커뮤니티에 의해 구축되었습니다! 이 프로젝트에 기여하고 싶다면 기여 가이드(contribution guide)를 확인해 주세요.
SignPath.io에서 무료 코드 서명(code signing)을 제공하며, 인증서는 SignPath Foundation에서 제공합니다.
Committers and reviewers: 이 리포지토리(repo)의 유지 관리자 (Maintainers)Approvers: 소유자 (Owners)
개인정보 보호정책 (Privacy policy): 이 프로그램은 사용자 또는 이를 설치하거나 운영하는 사람이 명시적으로 요청하지 않는 한, 다른 네트워크 시스템으로 어떠한 정보도 전송하지 않습니다. 사용자가 요청할 경우, Lemonade는 Hugging Face Hub(해당 서비스의 개인정보 보호정책 참조)로부터 AI 모델을 다운로드합니다.
이 프로젝트는:
- 오픈 소스 커뮤니티를 향한 ❤️를 담아 C++ (서버) 및 React (앱)로 구축되었으며,
- 다음의 훌륭한 도구들을 기반으로 합니다:
- Apache 2.0 라이선스 (Apache 2.0 License) 하에 라이선스가 부여됩니다.
- 프로젝트의 일부는 LICENSE에 기술된 대로 라이선스가 부여됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN OpenAI Codex의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기