Show HN: Lemonade: GPU 및 NPU 가속을 통해 로컬에서 LLM 실행하기

Lemonade는 클라우드 API와 동일한 기능을 제공하면서도 100% 무료이며 프라이빗한 로컬 AI 서버입니다. 여러분의 NPU 및 GPU를 사용하여 채팅, 코딩, 음성 및 이미지 생성을 위한 최신 모델을 사용해 보세요.

Lemonade는 두 가지 방식으로 제공됩니다:

Lemonade Server는 표준 OpenAI, Anthropic 및 Ollama API를 사용하여 수백 개의 훌륭한 앱에 연결할 수 있는 서비스를 설치합니다. Embeddable Lemonade는 사용자의 PC에 맞춰 자동 최적화되는 멀티모달 (multi-modal) 로컬 AI를 제공하기 위해 여러분의 애플리케이션에 패키징할 수 있는 휴대용 바이너리입니다.

이 프로젝트는 모든 PC를 위해 커뮤니티가 구축하였으며, Ryzen AI, Radeon 및 Strix Halo PC에서 최대한의 성능을 끌어내기 위해 AMD 엔지니어들의 최적화가 포함되어 있습니다.

설치 (Install): Windows · Linux · macOS · Docker · Source
모델 가져오기 (Get Models): Model Manager를 통해 찾아보고 다운로드하세요
생성 (Generate): 채팅, 이미지 생성, 음성 생성 등을 위한 내장 인터페이스로 모델을 테스트해 보세요
모바일 (Mobile): Lemonade를 휴대하세요: iOS · Android · Source
연결 (Connect): 즐겨 사용하는 앱과 Lemonade를 함께 사용하세요:

여러분의 앱을 여기에 소개하고 싶으신가요? 마켓플레이스 PR을 제출해 주세요!

플랫폼 (Platform)	빌드 (Build)

Gemma와 실행 및 채팅하기:

lemonade run Gemma-4-E2B-it-GGUF

Lemonade 모델로 코딩하기:

lemonade launch claude

멀티모달리티 (Multi-modality):

# 이미지 생성 (image gen)
lemonade run SDXL-Turbo
# 음성 생성 (speech gen)
...

사용 가능한 모델을 확인하고 다운로드하려면:

lemonade list
lemonade pull Gemma-4-E2B-it-GGUF

PC에서 사용 가능한 백엔드 (backends)를 확인하려면:

lemonade backends

하이브리드 설정을 위해, Lemonade는 로컬 모델과 함께 모든 OpenAI 호환 클라우드 제공업체(Fireworks, OpenAI, OpenRouter, Together, …)로 라우팅할 수도 있습니다 — Cloud Offload를 참조하세요. (실험적 기능.)

Lemonade는 CPU, GPU 및 NPU 전반에 걸쳐 매우 다양한 LLM (GGUF, FLM, 및 ONNX), whisper, stable diffusion 등의 모델을 지원합니다.

lemonade pull을 사용하거나 내장된 Model Manager를 사용하여 모델을 다운로드하세요. Hugging Face에서 커스텀 GGUF/ONNX 모델을 가져올 수도 있습니다.

Lemonade는 LLM, 음성(Speech), TTS(Text-to-speech), 그리고 이미지 생성(Image generation)을 위해 여러 추론 엔진(Inference engine)을 지원하며, 각 엔진은 고유한 백엔드(Backend)와 하드웨어 요구 사항을 가집니다.

모달리티 (Modality)	엔진 (Engine)	백엔드 (Backend)	장치 (Device)	OS
텍스트 생성 (Text generation)	`llamacpp`	`system`	`x86_64` / ARM64 CPU, GPU	Linux
		`metal`	Apple Silicon GPU	macOS
		`cuda`	NVIDIA GPUs (Turing 또는 그 이후 버전)**	Windows, Linux
		`vulkan`	`x86_64` CPU, AMD iGPU, AMD dGPU; ARM64 CPU/GPU (Linux)	Windows, Linux
		`rocm`	지원되는 AMD ROCm iGPU/dGPU 제품군*	Windows, Linux
		`cpu`	`x86_64` CPU; ARM64 CPU (Linux)	Windows, Linux
	`flm`	`npu`	XDNA2 NPU	Windows, Linux
	`ryzenai-llm`	`npu`	XDNA2 NPU	Windows
	`vllm` (실험적)	`rocm`	Strix Halo iGPU (gfx1151)	Linux
음성-텍스트 변환 (Speech-to-text)	`whispercpp`	`npu`	XDNA2 NPU	Windows
		`rocm`	지원되는 AMD ROCm iGPU/dGPU 제품군*	Windows, Linux
		`vulkan`	`x86_64` CPU	Windows, Linux
		`cpu`	`x86_64` CPU	Windows, Linux
		`metal`	Apple Silicon GPU	macOS
`moonshine`	`cpu`	`x86_64` / `arm64` CPU	Windows, Linux, macOS
텍스트-음성 변환 (Text-to-speech)	`kokoro`	`cpu`	`x86_64` CPU	Windows, Linux
		`metal`	Apple Silicon GPU	macOS
이미지 생성 (Image generation)	`sd-cpp`	`rocm`	지원되는 AMD ROCm iGPU/dGPU 제품군*	Windows, Linux
		`cuda`	NVIDIA GPUs (Turing 또는 그 이후 버전)**	Linux
		`vulkan`	Vulkan 지원 GPU	Windows, Linux
		`cpu`	`x86_64` CPU	Windows, Linux
		`metal`	Apple Silicon GPU	macOS

사용자의 기기에서 정확히 어떤 레시피/백엔드가 지원되는지 확인하려면 다음을 실행하세요:

lemonade backends

** 지원되는 AMD ROCm 플랫폼* 확인

아키텍처 (Architecture)	플랫폼 지원 (Platform Support)	GPU 모델 (GPU Models)
gfx1151 (STX Halo)	Windows, Ubuntu	Ryzen AI MAX+ Pro 395
gfx120X (RDNA4)	Windows, Ubuntu	Radeon AI PRO R9700, RX 9070 XT/GRE/9070, RX 9060 XT
gfx110X (RDNA3)	Windows, Ubuntu	Radeon PRO W7900/W7800/W7700/V710, RX 7900 XTX/XT/GRE, RX 7800 XT, RX 7700 XT

*** 지원되는 NVIDIA CUDA 플랫폼 확인*

Compute Capability	Architecture	GPU Models
sm_75	Turing	RTX 20-series, GTX 16-series, T4
sm_80 / sm_86	Ampere	RTX 30-series, A100, A40
sm_89	Ada Lovelace	RTX 40-series, L40, L4
sm_90	Hopper	H100, H200
sm_100 / sm_120	Blackwell	RTX 50-series, B100, B200

Lemonade의 로드맵은 여러 작업 그룹(working groups)에 의해 정의됩니다. 각 그룹의 목표와 로드맵을 알아보려면 여기 랜딩 페이지를 방문하세요.

Embeddable Lemonade는 여러분의 앱에 번들로 포함할 수 있는 Lemonade의 바이너리(binary) 버전으로, 휴대 가능하고 자동 최적화되는 멀티모달 (multi-modal) 로컬 AI 스택을 제공합니다. 이를 통해 사용자는 Lemonade 설치 프로그램, 브랜딩 또는 텔레메트리 (telemetry) 없이 여러분의 앱에만 집중할 수 있습니다.

Embeddable Lemonade 가이드를 확인해 보세요.

기본 URL(base URL)을 http://localhost:13305/v1로 설정하면 모든 OpenAI 호환 클라이언트 라이브러리를 사용할 수 있습니다. 다양한 언어별 공식 및 인기 OpenAI 클라이언트를 정리한 표는 아래와 같습니다.

원하는 언어를 자유롭게 선택하여 사용하세요.

Python	C++	Java	C#	Node.js	Go	Ruby	Rust	PHP
openai-python	openai-cpp	openai-java	openai-dotnet	openai-node	go-openai	ruby-openai	async-openai	openai-php

from openai import OpenAI
# Lemonade 서버를 사용하도록 클라이언트 초기화
client = OpenAI(
...

사용 가능한 API와 Lemonade를 여러분의 애플리케이션에 임베딩(embed)하는 방법에 대해 자세히 알아보려면 클릭하세요.

자주 묻는 질문을 읽어보려면 FAQ 가이드를 참조하세요.

Lemonade는 로컬 AI 커뮤니티에 의해 구축되었습니다! 이 프로젝트에 기여하고 싶다면 기여 가이드(contribution guide)를 확인해 주세요.

SignPath.io에서 무료 코드 서명(code signing)을 제공하며, 인증서는 SignPath Foundation에서 제공합니다.

Committers and reviewers: 이 리포지토리(repo)의 유지 관리자 (Maintainers)Approvers: 소유자 (Owners)

개인정보 보호정책 (Privacy policy): 이 프로그램은 사용자 또는 이를 설치하거나 운영하는 사람이 명시적으로 요청하지 않는 한, 다른 네트워크 시스템으로 어떠한 정보도 전송하지 않습니다. 사용자가 요청할 경우, Lemonade는 Hugging Face Hub(해당 서비스의 개인정보 보호정책 참조)로부터 AI 모델을 다운로드합니다.

이 프로젝트는:

오픈 소스 커뮤니티를 향한 ❤️를 담아 C++ (서버) 및 React (앱)로 구축되었으며,
다음의 훌륭한 도구들을 기반으로 합니다:
Apache 2.0 라이선스 (Apache 2.0 License) 하에 라이선스가 부여됩니다.
프로젝트의 일부는 LICENSE에 기술된 대로 라이선스가 부여됩니다.

Insights

Show HN: Lemonade: GPU 및 NPU 가속을 통해 로컬에서 LLM 실행하기

요약

핵심 포인트

댓글

API를 통해 캐나다 건설업자 면허 데이터를 가져오는 방법 (2026)

183개의 로컬 도구, 가드레일은 제로: 로컬 MCP가 '개인정보 보호'에 대해 잘못 알고 있는 것

멀티 에이전트 시뮬레이션을 위한 RAG 변형 모델 설계: 설계 방식과 솔직한 트레이드오프

AI 에이전트 메모리 지속성 (AI Agent Memory Persistence) 2026

API를 통해 캐나다 건설업자 면허 데이터를 가져오는 방법 (2026)

183개의 로컬 도구, 가드레일은 제로: 로컬 MCP가 '개인정보 보호'에 대해 잘못 알고 있는 것

멀티 에이전트 시뮬레이션을 위한 RAG 변형 모델 설계: 설계 방식과 솔직한 트레이드오프

AI 에이전트 메모리 지속성 (AI Agent Memory Persistence) 2026