본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 23. 16:34

LlamaStation v0.9 — 멀티 백엔드 지원, TurboQuant, MTP 등을 포함한 Windows용 llama.cpp GUI

요약

LlamaStation v0.9은 llama.cpp를 기반으로 한 Windows용 GUI 도구로, 명령줄 입력 없이도 모든 파라미터를 정밀하게 제어할 수 있습니다. TurboQuant와 MTP를 지원하여 긴 컨텍스트에서도 높은 성능을 유지하며, 멀티 백엔드와 음성 모드 등 다양한 기능을 제공합니다.

핵심 포인트

  • llama-server를 직접 실행하여 오버헤드 없는 성능 제공
  • TurboQuant를 통한 고성능/대용량 컨텍스트 지원
  • 실시간 VRAM 미터기 및 모델별 프로필 저장 기능
  • 오프라인 음성 인식 및 음성 복제 모드 탑재
  • 헤드리스 모드를 통한 서버 및 자동화 활용 가능

저는 지난 몇 달 동안 이 프로젝트를 사이드 프로젝트로 만들어 왔습니다. 모델을 테스트하고 싶을 때마다 매번 명령줄(command line)에서 llama.cpp를 실행하고 싶지 않아서 시작하게 되었습니다. 저는 그저 클릭 한 번으로 작동하는 무언가를 원했을 뿐입니다.

주의 사항: 저는 개발자가 아닙니다. 이 코드는 100% AI의 도움을 받아 '바이브 코딩(vibe coded)'되었습니다. 만약 코드베이스에서 무언가 불편한 점을 발견하신다면, 부디 너그럽게 이해해 주시고 대신 PR(Pull Request)을 열어주세요 🙏

대부분의 프론트엔드(frontend)는 모든 것을 추상화(abstraction) 뒤로 숨기거나(Ollama, LM Studio), 사용자가 직접 명령줄을 작성하게 만듭니다. LlamaStation은 그 중간을 지향합니다. 모든 파라미터(parameter)에 대한 완전한 접근 권한을 제공하면서도 깔끔한 UI를 갖추고 있습니다.

차별점

lama-server를 직접 실행합니다 — 중간 계층도, 데몬(daemon)도, 추상화도 없습니다. LlamaStation은 모든 플래그(flag)를 완전히 제어하며 llama-server.exe를 서브프로세스(subprocess)로 실행합니다. 여러분이 설정하는 것이 정확히 바이너리(binary)로 전달됩니다. 이는 Ollama와 같은 도구들이 추가하는 오버헤드(overhead) 없이 llama.cpp의 전체 성능을 그대로 얻을 수 있음을 의미합니다.

UI에서 전환 가능한 멀티 백엔드(Multiple backends):

⚡ 공식 llama.cpp (PR #22673 이후 MTP 지원)
🔬 TurboQuant 포크(fork) — 비대칭 KV 캐시 양자화(asymmetric KV cache quantization). 저에게는 이것이 핵심 기능입니다: 품질 저하를 최소화하면서 24GB VRAM(RTX 3060 듀얼)에서 200k 이상의 컨텍스트(context) 사용 가능
⚛️ AtomicChat — TurboQuant와 MTP의 결합
🐝 BeeLlama — DFlash + TurboQuant (실험적 기능)

GPU별 실시간 VRAM 미터기 — 색상별로 구분되며 모델이 로드됨에 따라 실시간으로 업데이트됩니다.
모델별 프로필 — 모델 파일마다 모든 설정이 자동으로 저장됩니다.
음성 모드 — 푸시 투 토크(push-to-talk) 또는 항상 듣기 모드, XTTS v2를 통한 음성 복제(voice cloning), faster-whisper를 통한 음성 인식(speech recognition). 완전히 오프라인으로 작동합니다.
헤드리스 모드(Headless mode) — 서버나 자동화를 위해 저장된 프로필을 사용하여 GUI 없이 실행합니다.
자동 업데이트 — 앱 내부에서 llama.cpp 공식 버전을 업데이트하고(AtomicChat 릴리스도 확인합니다).

참고를 위한 내 설정
Dual RTX 3060 (총 24GB), Ryzen 7 5700X, 32GB DDR4 3600MHz, Windows 11. TurboQuant KV 캐시(KV cache) 및 MTP를 사용하여 Qwen3.6 27B Q4_K_M 실행 — 177k 컨텍스트 (context). MTP가 없을 때 동일한 모델은 약 17 tok/s로 시작하여 긴 응답 시 약 10 tok/s로 떨어집니다. MTP를 사용하면 약 29 tok/s로 시작하여 긴 코드 생성 시에도 약 22 tok/s를 유지합니다. 이것이 제가 LlamaStation을 만든 이유입니다.

상태
v0.9 — 저의 일상적인 사용에는 잘 작동합니다. 저는 다른 도구들을 이 앱으로 완전히 대체했습니다. 코딩 에이전트(coding agents), Telegram 봇, 음성 비서 및 기타 로컬 자동화의 백엔드(backend)로 사용하고 있습니다. 알려진 버그가 하나 있으며(OOM 크래시 발생 후 서버 와치독(server watchdog)이 "restarting" 상태에서 멈추는 현상), 제가 아직 발견하지 못한 다른 버그들도 있을 수 있습니다. 피드백과 기여를 받기 위해 공개합니다.
본업이 프로그래머는 아닙니다 — 이 모든 것을 전적으로 AI의 도움을 받아 구축했습니다. 코드베이스는 설계상 단일 메인 파일로 구성되어 있어 읽고 수정하기 쉽습니다.
기여는 언제나 환영합니다 — 특히 다음 사항들을 환영합니다:

Linux/Mac 포팅 (현재 Windows 전용)
버그 수정
새로운 백엔드 통합
UI 개선

GitHub — MIT 라이선스, 텔레메트리(telemetry) 없음, 계정 불필요.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0