Pi + Docker Sandbox + 로컬 LLM (llama.cpp 또는 MLX)
요약
Docker Sandbox를 활용하여 로컬 LLM(llama.cpp, MLX)을 호스트 환경으로부터 격리하여 실행하는 두 가지 가이드를 제공합니다. 모델 서버는 호스트 GPU를 사용하되, Pi는 마이크로 VM 내에서 추론 엔드포인트만 노출되도록 설계되었습니다.
핵심 포인트
- Docker Sandbox(sbx)를 통한 보안 격리 환경 구축
- 호스트 GPU를 활용한 고속 추론 성능 유지
- llama.cpp 및 Apple Silicon용 MLX 지원
- 추론 엔드포인트 외 파일 및 키체인 접근 차단
안녕하세요 여러분,
호스트의 GPU에서 풀 스피드로 추론 (inference)을 수행하면서도, Pi를 호스트로부터 완전히 격리하여 실행하는(워크스페이스 외부의 파일, SSH 키 또는 키체인에 접근할 수 없는 상태) 두 가지 가이드를 공유하고자 합니다.
아키텍처: Pi는 Docker Sandbox (sbx) 마이크로 VM (microVM) 내부에서 실행됩니다. 모델 서버는 호스트 머신에서 실행되며, sbx 프록시 (proxy)를 통해 샌드박스에 노출됩니다. 오직 추론 엔드포인트 (inference endpoint)만 접근 가능하며, 그 외의 것은 아무것도 접근할 수 없습니다.
설정 및 선호도에 따른 두 가지 변형:
- llama-server: https://github.com/cuolm/pi-sbx-llamacpp
- mlx_lm.server (Apple Silicon 전용): https://github.com/cuolm/pi-sbx-mlx
누군가에게 도움이 되길 바랍니다!
submitted by /u/MountainTop321
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기