raketenkater/llm-server: 로컬 LLM 추론을 위한 지능형 오토메이터
요약
raketenkater/llm-server 는 llama.cpp 와 ik_llama.cpp 를 실행할 때 GPU 자동 감지, MoE 모델 배치 최적화, 충돌 복구 기능을 제공하는 스마트 런처입니다. Apple Silicon(Metal) 및 CUDA 환경 모두 지원하며, 복잡한 설정 없이 로컬 AI 추론 환경을 즉시 구축하고 안정적으로 운영할 수 있습니다.
핵심 포인트
- llama.cpp 와 ik_llama.cpp 기반의 로컬 LLM 추론을 위한 통합 런처 제공
- Apple Silicon(Metal) 및 NVIDIA(CUDA) GPU 환경 자동 감지 및 최적화 지원
- MoE 모델의 효율적인 GPU 배치 전략 적용 및 충돌 복구 기능 내장
raketenkater/llm-server
Repository: raketenkater/llm-server
Language: Shell
Stars: 194
Forks: 9
Topics: apple-silicon, cli, cuda, gguf, ik-llama-cpp, inference, llama-cpp, llm, local-ai, metal, moe, multi-gpu
Description:
Smart launcher for llama.cpp / ik_llama.cpp — auto-detects GPUs, optimizes MoE placement, crash recovery
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub ML Hardware의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기