WSL/Ubuntu 환경의 llama.cpp 관리를 위한 Windows 앱을 만들었습니다

저는 Windows 사용자이며, 소프트웨어에 대해 상당히 Windows적인 기대를 가지고 있습니다. 즉, 무언가를 설치, 빌드, 설정 및 실행하기 위해 터미널(Terminal) 안에서만 머물러야 하는 상황을 선호하지 않습니다.

제가 원하는 방식으로 WSL 상의 llama.cpp 전체 워크플로우(Workflow)를 관리해 주는 앱을 찾을 수 없어서, 직접 하나 만들었습니다.

llama.cpp Console은 Ubuntu/WSL을 통해 llama.cpp 모델을 설정하고 실행하기 위한 비공식 Windows 데스크톱 앱입니다. Windows 앱 자체는 독립적인 WPF 앱이며, UI를 통해 WSL 측을 관리할 수 있도록 도와줍니다.

GitHub:

https://github.com/alekk89/llama.cpp-Console

UI에서 할 수 있는 기능:

WSL 감지/설치 및 Ubuntu 설정 안내
Ubuntu 내부의 CPU 빌드 도구(Build tools) 설치/업데이트
WSL 내부의 CUDA Toolkit 지원 설치/업데이트
Vulkan 빌드 의존성(Dependencies) 설치/업데이트
공식 리포지토리(Repo) 또는 커스텀 리포지토리에서 llama.cpp 소스 다운로드
WSL 내부에서 CPU, CUDA 또는 Vulkan llama.cpp 런타임(Runtime) 빌드
Hugging Face에서 GGUF 모델 검색
모델 다운로드/등록 (일부 호환성 힌트 및 컴패니언 프로젝터/mmproj 처리 포함)
모델별 실행 파라미터(Launch parameters) 설정
각 모델이 사용할 llama.cpp 런타임/빌드 선택
llama-server 시작, 중지 및 감독
실시간 토큰(Tokens), 런타임 메트릭(Metrics), 로그, GPU 상태, 사용률 및 온도 모니터링
로그, 작업, 다운로드 및 생애 주기 메트릭 추적
앱에서 로컬 OpenCode 모델/프로바이더/에이전트 설정 스니펫(Snippets)을 관리하여, 설정된 모델을 OpenCode에 빠르게 추가 가능

제가 이 앱을 만든 주요 이유는 지루한 설정 작업이 일반적인 Windows 소프트웨어처럼 느껴지길 원했기 때문입니다. UI를 클릭하고, 무엇이 설치되었는지 확인하고, 무엇이 누락되었는지 확인하고, 런타임을 빌드하고, 모델을 다운로드하고, 실행 설정을 선택한 다음, 진행 상황에 대한 완전한 제어권을 잃지 않으면서 실행하는 방식 말입니다.

참고 사항:

이 앱은 Windows 우선(Windows-first) 앱입니다. 실제 llama.cpp 런타임은 Ubuntu/WSL에서 실행됩니다.
모델 서빙(Model serving)은 기본적으로 로컬 전용(Local-only)으로 설정됩니다.
현재 이 앱은 한 번에 하나의 활성화된 서빙 모델(Served model)을 중심으로 작동합니다.
첫 번째 공개 버전은 서명되지 않았으므로(Unsigned), Windows SmartScreen의 경고가 나타날 수 있습니다. 릴리스 아티팩트(Release artifacts)에는 SHA-256 파일이 포함되어 있습니다.
이 프로젝트는 llama.cpp 또는 ggml-org와 제휴하거나 그들로부터 승인받은 것이 아닙.

저는 한동안 이 앱의 더 단순한 버전을 로컬에서 사용해 왔으며, 다른 Windows 사용자들에게도 유용할 수 있도록 충분히 다듬어 출시하게 되었습니다. 향후 계획으로는 더 빠른 모델 전환, 가능한 경우 RAM에 모델을 상주시켜 Warm 상태로 유지하는 기능, 그리고 궁극적으로 한 번에 하나 이상의 모델을 로드하는 기능 지원 등이 포함됩니다.

참고로 저는 AMD GPU를 소유하고 있지 않으므로, Vulkan 설치/빌드 경로는 AMD 하드웨어에서 제가 직접 검증하지 않았습니다.

Insights

WSL/Ubuntu 환경의 llama.cpp 관리를 위한 Windows 앱을 만들었습니다

요약

핵심 포인트

댓글

WSJ 오피니언: US SEC, 메시지 유실 관련 Coinbase와의 FOIA 소송 합의

Deepseek V4 Flash 모델을 두 개의 Nvidia 4090d 48G GPU에서 vLLM으로 구동한 성능 분석

BrassCoders가 잡아낼 수 없는 공격: 프롬프트 인젝션 (Prompt Injection)

영국 CFO들, 비용 통제를 대졸 신입 채용 축소의 주요 원인으로 지목

Deepseek V4 Flash 모델을 두 개의 Nvidia 4090d 48G GPU에서 vLLM으로 구동한 성능 분석

BrassCoders가 잡아낼 수 없는 공격: 프롬프트 인젝션 (Prompt Injection)

영국 CFO들, 비용 통제를 대졸 신입 채용 축소의 주요 원인으로 지목