Light-Heart-Labs/DreamServer

소수의 기업들이 전 세계 AI 트래픽의 압도적인 부분을 통제하고 있으며, 그와 함께 여러분의 데이터, 비용, 그리고 가동 시간(uptime)까지 통제하고 있습니다. 중앙 집중식 제공업체에 보내는 모든 쿼리는 여러분이 소유하지 않은 비즈니스 인텔리전스(business intelligence)이며, 여러분이 제어할 수 없는 인프라(infrastructure)에서 실행되며, 여러분이 협상할 수 없는 조건으로 가격이 책정됩니다.

AI가 핵심 인프라(critical infrastructure)가 되고 있다면, 그것은 임대 대상이 되어서는 안 됩니다. 로컬 AI(local AI)를 셀프 호스팅(Self-hosting)하는 것은 직업적 선택이 아닌, 주권적인 인간의 권리여야 합니다.

Dream Server는 탈출구입니다. 단 한 번의 명령으로 여러분의 하드웨어에 배포되는 로컬 우선(local-first) AI 스택 — LLM 추론(inference), 채팅, 음성, 에이전트(agents), 워크플로(workflows), RAG, 이미지 생성 및 프라이버시 도구 — 를 제공합니다. 클라우드(cloud)가 필요하지 않습니다. 구독(subscriptions)도 필요하지 않습니다. 감시하는 사람도 없습니다. 클라우드 및 하이브리드 API 모드는 원할 때 선택적으로 사용할 수 있습니다.

처음 오셨나요? Friendly Guide를 읽거나 오디오 버전을 들어보세요 — Dream Server가 무엇인지, 어떻게 작동하는지, 그리고 어떻게 자신만의 것으로 만들 수 있는지에 대한 완전한 안내서입니다. 기술적 배경 지식은 필요하지 않습니다.

현재 플랫폼 지원 현황

플랫폼	상태	Linux(NVIDIA + AMD + Intel Arc)	Windows(NVIDIA + AMD)	macOS(Apple Silicon)
지원 여부	지원됨	— 오늘 바로 설치 및 실행 가능	— 오늘 바로 설치 및 실행 가능	— 오늘 바로 설치 및 실행 가능

테스트된 Linux 배포판: Ubuntu 24.04/22.04, Debian 12, Fedora 41+, Arch Linux, CachyOS, openSUSE Tumbleweed. apt, dnf, pacman 또는 zypper를 사용하는 다른 배포판에서도 작동해야 합니다 — 작동하지 않을 경우 이슈(issue)를 생성해 주세요.

Windows: WSL2 백엔드를 사용하는 Docker Desktop이 필요합니다. NVIDIA GPU는 Docker GPU 패스스루(passthrough)를 사용하며, AMD Strix Halo는 Windows 설치 프로그램 및 지원 매트릭스(support matrix)에 문서화된 플랫폼별 가속 경로를 통해 실행됩니다.

macOS: Apple Silicon(M1+) 및 Docker Desktop이 필요합니다. llama-server는 Metal GPU 가속과 함께 네이티브로 실행되며, 다른 모든 서비스는 Docker에서 실행됩니다. 자세한 내용은 지원 매트릭스(Support Matrix)를 참조하세요.

자신만의 AI를 실행하는 데 컴퓨터 과학 (CS) 학위와 주말 내내 CUDA 드라이버를 디버깅하는 시간이 필요해서는 안 되기 때문입니다. 현재 로컬 AI를 설정한다는 것은 수십 개의 프로젝트를 하나로 엮고, Docker 설정을 처음부터 작성하며, 모든 것이 서로 잘 통신하기를 기도하는 것을 의미합니다. 대부분의 사람들은 이를 포기하고 다시 OpenAI에 비용을 지불하러 돌아갑니다.

우리는 여러분이 그럴 필요가 없도록 Dream Server를 구축했습니다.

단 한 번의 명령— GPU를 감지하고, 적절한 모델을 선택하며, 자격 증명을 생성하고, 모든 것을 실행합니다. 2분 이내의 채팅— 부트스트랩 (Bootstrap) 모드는 전체 모델이 백그라운드에서 다운로드되는 동안 즉시 작동하는 모델을 제공합니다. 사전 연결된 전체 서비스 스택— 채팅, 에이전트 (Agents), 음성, 워크플로 (Workflows), 검색, RAG, 이미지 생성, 개인정보 보호 도구, 관측성 (Observability) 및 개발자 도구. 이 모든 것이 별도의 설정 없이 즉시 서로 통신합니다. 완전한 모딩 가능성— 모든 서비스는 확장 기능입니다. 폴더를 넣고 dream enable을 실행하면 끝입니다.

curl -fsSL https://raw.githubusercontent.com/Light-Heart-Labs/DreamServer/main/dream-server/get-dream-server.sh | bash

**http://localhost:3000**을 열고 채팅을 시작하세요.

API 엔드포인트 (Endpoint): Linux Docker 설치 시 llama-server는 기본적으로 http://localhost:11434 (OLLAMA_PORT)에 노출되는 반면, 컨테이너는 llama-server:8080을 사용합니다. macOS 네이티브 Metal 및 Windows 네이티브/Lemonade 경로는 재정의되지 않는 한 http://localhost:8080을 사용합니다. WebUI는 http://localhost:3000에 유지됩니다.

GPU가 없나요? Dream Server는 클라우드 모드에서도 실행됩니다 — 로컬 추론 (Inference) 대신 OpenAI/Anthropic/Together API를 사용하여 동일한 전체 스택을 제공합니다: ./install.sh --cloud

포트 충돌이 발생하나요? 모든 포트는 환경 변수를 통해 구성할 수 있습니다. 전체 목록은 .env.example을 참조하거나, 설치 시점에 재정의하세요: WEBUI_PORT=9090 ./install.sh

수동 설치 (Linux)

git clone https://github.com/Light-Heart-Labs/DreamServer.git
cd DreamServer/dream-server
./install.sh

Windows (PowerShell)

WSL2 백엔드가 활성화된 Docker Desktop이 필요합니다.
설치를 시작하기 전에 반드시 Docker Desktop을 먼저 설치하고 실행 중인지 확인하세요.

일반 PowerShell 세션을 열고 다음을 실행하세요:

Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass
git clone https://github.com/Light-Heart-Labs/DreamServer.git
cd DreamServer
...

Set-ExecutionPolicy 명령은 설치 스크립트가 현재 세션에서 실행될 수 있도록 허용합니다. 이는 시스템 전체의 정책을 변경하지 않습니다. 설치 시 관리자(Administrator) 권한으로 실행하는 것은 권장되지 않는데, .opencode, data/, .env와 같은 사용자 수준의 경로가 관리자 소유의 권한으로 생성될 수 있기 때문입니다.

설치 프로그램은 GPU를 감지하여 적절한 모델을 선택하고, 자격 증명(credentials)을 생성하며, 모든 서비스를 시작하고, 대시보드(Dashboard)로 연결되는 데스크톱 바로가기를 생성합니다. .\dream-server\installers\windows\dream.ps1 status 명령으로 관리할 수 있습니다.

macOS (Apple Silicon)

Apple Silicon (M1+) 및 Docker Desktop이 필요합니다.
시작하기 전에 반드시 Docker Desktop을 먼저 설치하고 실행 중인지 확인하세요.

git clone https://github.com/Light-Heart-Labs/DreamServer.git
cd DreamServer/dream-server
./install.sh

설치 프로그램은 칩을 감지하여 통합 메모리(unified memory)에 적합한 모델을 선택하고, Metal 가속을 사용하여 llama-server를 네이티브로 실행하며, 나머지 모든 서비스는 Docker에서 시작합니다. ./dream-macos.sh status 명령으로 관리할 수 있습니다.

자세한 내용은 macOS Quickstart를 참조하세요.

Open WebUI— 대화 기록, 웹 검색, 문서 업로드 및 30개 이상의 언어를 지원하는 풀 기능 채팅 인터페이스
llama-server— 연속 배칭(continuous batching)을 지원하는 고성능 LLM 추론 엔진으로, 사용자의 GPU에 맞춰 자동 선택됩니다. Linux Docker 호스트 API의 기본값은 localhost:11434이며, 네이티브 macOS/Windows 경로는 localhost:8080을 사용하고, 컨테이너 API는 8080에서 실행됩니다.
LiteLLM— 로컬/클라우드/하이브리드 모드를 지원하는 API 게이트웨이(API gateway)
TEI Embeddings— RAG 및 검색 워크플로를 위한 텍스트 임베딩 (text embedding) 서비스

Whisper— 음성-텍스트 변환 (speech-to-text)
Kokoro— 텍스트-음성 변환 (text-to-speech)

Hermes Agent— 메모리, 기술(skills), 그리고 매직 링크로 제어되는 프록시(magic-link-gated proxy)를 갖춘 선택 사항인 로컬 우선(local-first) 자율/브라우저 에이전트
OpenClaw— 선택 사항인 자율 AI 에이전트 프레임워크
n8n— 400개 이상의 통합 기능(Slack, 이메일, 데이터베이스, API)을 제공하는 워크플로우 자동화
APE— 자율적인 도구 호출(tool calls)을 감사하고 관리하기 위한 에이전트 정책 엔진(Agent Policy Engine)
OpenCode— 로컬 스택에 연결된 브라우저 기반 AI 코딩 어시스턴트
Memory Shepherd— 에이전트 메모리 수명 주기 관리를 위한 호스트/systemd 헬퍼

Qdrant— 검색 증강 생성 (RAG)을 위한 벡터 데이터베이스 (vector database)
SearXNG— 셀프 호스팅 웹 검색 (추적 없음)
Perplexica— 심층 연구 엔진 (deep research engine)
Brave Search— 선택 사항인 유료 Brave Search API 통합

ComfyUI— 노드 기반 이미지 생성

Privacy Shield— API 호출을 위한 개인정보(PII) 삭제 프록시
Dashboard— 실시간 GPU 메트릭, 서비스 상태, 모델 관리
Dashboard API— 대시보드 이면에 있는 서비스 상태, 설정, 상태, 메트릭 및 관리 API
Token Spy— 로컬 및 프록시된 LLM 트래픽을 위한 토큰 사용량 모니터
Langfuse— 선택 사항인 LLM 관측성 (observability) 및 트레이싱 (tracing)

설치 프로그램은 사용자의 GPU를 감지하여 최적의 모델을 자동으로 선택합니다. 기본 경로를 위한 수동 설정은 필요하지 않습니다.

현재 모델 맵은 기본적으로 MODEL_PROFILE=qwen을 지원하며, 지원되는 경우 Gemma 4 티어(tiers)를 위한 MODEL_PROFILE=gemma4 및 MODEL_PROFILE=auto를 지원합니다. ./install.sh --tier 3로 티어 선택을 재정의하거나, MODEL_PROFILE=gemma4 ./install.sh 또는 MODEL_PROFILE=auto ./install.sh로 모델 제품군(model family)을 재정의할 수 있습니다.

계층 (Tier)	VRAM	Qwen 프로필	Gemma 4 프로필	컨텍스트 (Context)	예시 GPU
0	< 8 GB 또는 CPU 전용 폴백 (fallback)	Qwen3.5 2B (Q4_K_M)	Qwen3.5 2B (부트스트랩 친화적 최소 사양)	8K	모든 GPU 또는 CPU 전용
...
계층 (Tier)	통합 RAM (Unified RAM)	Qwen 프로필	Gemma 4 프로필	컨텍스트 (Context)	하드웨어
---	---	---	---	---	---
SH_COMPACT	64–89 GB	Qwen3 30B-A3B MoE (Q4_K_M)	Gemma 4 26B-A4B IT (Q4_K_M)	128K Qwen / 64K Gemma	Ryzen AI MAX+ 395 (64GB)
SH_LARGE	90+ GB	Qwen3 Coder Next (Q4_K_M)	Gemma 4 31B IT (Q4_K_M)	128K	Ryzen AI MAX+ 395 (96GB)

계층 (Tier)	통합 RAM (Unified RAM)	Qwen 프로필	Gemma 4 프로필	컨텍스트 (Context)	예시 하드웨어
0	< 16 GB	Qwen3.5 2B (Q4_K_M)	Qwen3.5 2B (부트스트랩 친화적 최소 사양)	8K	M1/M2 base (8GB)
...
계층 (Tier)	VRAM	Qwen 프로필	Gemma 4 프로필	컨텍스트 (Context)	예시 하드웨어
---	---	---	---	---	---
ARC_LITE	6–11 GB	Qwen3.5 4B (Q4_K_M)	Gemma 4 E2B IT (Q4_K_M)	16K	Arc A380, Arc A750
ARC	12+ GB	Qwen3.5 9B (Q4_K_M)	Gemma 4 E4B IT (Q4_K_M)	32K	Arc A770 16GB, 최신 Arc GPU

계층 선택 재정의 (Override tier selection): ./install.sh --tier 3

대용량 다운로드를 기다릴 필요가 없습니다. Dream Server는 기본적으로 부트스트랩 (bootstrap) 모드를 사용합니다:

1분 이내에 아주 작은 1.5B 모델을 다운로드합니다.
즉시 채팅을 시작할 수 있습니다.
전체 모델은 백그라운드에서 다운로드됩니다.
준비가 되면 전체 모델로 핫스왑 (Hot-swap) 합니다 — 다운타임(downtime)이 전혀 없습니다.

설치 프로그램은 모든 서비스를 병렬로 가져옵니다. 다운로드는 재개가 가능합니다 — 중단된 다운로드는 중단된 지점부터 다시 시작됩니다.

부트스트랩 건너뛰기: ./install.sh --no-bootstrap

설치 프로그램이 하드웨어에 맞는 모델을 선택하지만, 언제든지 전환할 수 있습니다:

dream model current # 현재 실행 중인 모델은 무엇인가요?
dream model list # 사용 가능한 모든 계층(tier)을 표시합니다
dream model swap T3 # 다른 계층으로 전환합니다

새 모델이 아직 다운로드되지 않았다면, 먼저 미리 가져오기 (pre-fetch) 하세요:

./scripts/pre-download.sh --tier 3 # 전환하기 전에 다운로드합니다
dream model swap T3 # 그 다음 전환합니다 (llama-server를 재시작합니다)

이미 사용하려는 GGUF 파일이 있나요? data/models/ 폴더에 넣으세요.

그 다음 .env 파일에서 GGUF_FILE과 LLM_MODEL을 업데이트하고, CLI로 재시작하세요:

dream restart llm

또는 설치된 dream-server 디렉토리에서 컨테이너를 직접 재시작할 수도 있습니다:

docker compose restart llama-server

롤백 (Rollback)은 자동으로 이루어집니다. 새 모델 로드에 실패하면, Dream Server는 이전 모델로 되돌아갑니다.

Dream Server는 모딩 (modded)이 가능하도록 설계되었습니다. 모든 서비스는 하나의 확장 기능 (extension)입니다. 즉, manifest.yaml과 compose.yaml이 포함된 폴더입니다. 대시보드, CLI, 상태 확인 (health checks), 그리고 컴포즈 스택 (compose stack)은 모두 확장 기능을 자동으로 탐색합니다.

extensions/services/
my-service/
manifest.yaml # 메타데이터: 이름, 포트, 상태 확인 엔드포인트 (health endpoint), GPU 백엔드 (GPU backends)
...

dream enable my-service # 활성화
dream disable my-service # 비활성화
dream list # 모든 항목 확인

설치 프로그램 (installer) 자체도 모듈식입니다. 6개의 라이브러리와 13개의 단계 (phases)로 구성되어 있으며, 각 단계는 별도의 파일로 존재합니다. 하드웨어 계층 (hardware tier)을 추가하거나, 기본 모델을 교체하거나, 특정 단계를 건너뛰고 싶나요? 파일 하나만 수정하면 됩니다.

전체 확장 가이드 | 설치 프로그램 아키텍처 (Installer architecture)

dream CLI는 전체 스택을 관리합니다:

dream status # 상태 확인 (Health checks) + GPU 상태
dream list # 모든 서비스와 그 상태
dream logs llm # 로그 확인 (별칭: llm, stt, tts)
...

다른 도구들은 과정의 일부만을 제공합니다. Dream Server는 과정의 전체를 제공합니다.

Dream Server	Ollama + Open WebUI	LocalAI
범위 (Scope)	전체 AI 스택 — 추론 (inference)부터 에이전트 (agents), 워크플로 (workflows)까지	LLM + 채팅 (chat)
설치	원클릭 설치	모든 기능, 자동 구성됨
하드웨어 자동 감지 + 모델 선택	NVIDIA + AMD Strix Halo + Apple Silicon + Intel Arc + CPU/클라우드 폴백 (fallback)	지원 안 함
...
퀵스타트 (Quickstart)	문제 해결 (troubleshooting)을 포함한 단계별 설치 가이드
헤드리스 설정 (Headless Setup)	QR 온보딩 (onboarding), 첫 부팅 설정, AP 모드, mDNS 및 로컬 에이전트 (local agent) 액세스
하드웨어 가이드 (Hardware Guide)	구매 가이드, 티어별 추천
...

Dream Server는 사람들이 기다리는 대신 직접 구축하기로 선택했기에 존재합니다. 이곳의 모든 기여자(contributor)는 코드 그 이상의 무언가, 즉 AI가 소수에 의해 대여되고, 제한되며, 통제되어야 한다는 생각에 맞서는 커지는 저항의 일부입니다. 이들은 한 사람, 한 대의 기계, 그리고 하나의 꿈만으로도 충분하다는 것을 증명하는 주권적 AI (sovereign AI) 운동의 창립자들입니다.

amd-strix-halo-toolboxes를 제공해 준 kyuz0에게 감사드립니다. Strix Halo를 위한 사전 빌드된 ROCm 컨테이너 덕분에 직접 빌드해야 하는 수고를 크게 덜 수 있었습니다. 그리고 strix-halo-testing을 제공한 lhl에게도 감사드립니다. 이는 더 넓은 커뮤니티가 기반으로 삼을 수 있는 기초적인 Strix Halo AI 연구 및 rocWMMA 성능 작업입니다.

Tony363 (Tony Siu)은 우리의 미션에 깊은 관심을 가지고 있으며, 우리가 세상에서 가시성을 확보하고 지원을 받는 데 있어 핵심적인 동맹 역할을 해왔습니다. 그의 가장 큰 공헌은 로컬 AI (local AI)와 대중을 위한 권한 부여 (empowerment)를 믿으며, 우리의 성공을 바라는 사람으로서의 모습입니다.

halo-ai (bong-water-water-bong) — Arch Linux 기반 Strix Halo를 위한 베어메탈 (Bare-metal) DreamServer 재구축. 컨테이너를 전혀 사용하지 않고 소스에서 컴파일되었으며, 89 tok/s를 기록했습니다. gfx1151에서의 생성을 위해 Vulkan이 ROCm보다 우수함을 증명했으며, 커널 튜닝 연구 (amd_iommu=off, TTM 페이지 풀 확장)를 생태계에 환원했습니다. 우리에게 Lemonade SDK 커뮤니티와 AMD 개발팀을 소개해 준 초기 DreamServer 지지자입니다.

Insights

Light-Heart-Labs/DreamServer

요약

핵심 포인트

댓글

QA 엔지니어가 바이브 코딩(Vibe Coding)으로 JSTQB Advanced Level 시험 대비 사이트를 만들어 보았다

Claude Code × OpenRouter :free 모델로 API 비용을 거의 제로로 만드는 5가지 설정 패턴

KAT Coder 2.5 dev: 꼭 한번 사용해 보세요!

다중 관할권 준수 하의 지속 가능한 양식 모니터링 시스템을 위한 확률적 그래프 신경 추론 (Probabilistic Graph Neural

Claude Code × OpenRouter :free 모델로 API 비용을 거의 제로로 만드는 5가지 설정 패턴

KAT Coder 2.5 dev: 꼭 한번 사용해 보세요!

다중 관할권 준수 하의 지속 가능한 양식 모니터링 시스템을 위한 확률적 그래프 신경 추론 (Probabilistic Graph Neural