Hugging Face 모델 ID를 받아 자동으로 다운로드하고 분산 서비스하는 4× DGX Spark 클러스터 관리 도구 설계

저는 Hugging Face 모델 ID가 주어지면 해당 모델을 자동으로 다운로드하고, 4대의 모든 머신에 분배하여 헤드 노드를 통해 서비스를 제공하는 관리 도구를 설계했습니다.

모델은 먼저 헤드 노드에 다운로드된 후, 200G 패브릭을 통해 다른 DGX Spark 노드들로 동기화되고, vLLM/Ray를 기반으로 하는 분산 추론(distributed inference)으로 실행됩니다.

NVFP4 지원 덕분에 Qwen3.5-397B-A17B-NVFP4와 같은 대규모 MoE 모델을 4개 노드에 걸쳐 실행할 수 있었습니다. 이 도구는 또한 OpenWebUI 연결 상태, 클러스터 상태 확인(cluster health checks), 노드별 통합 RAM 사용량, 그리고 총 토큰/초 벤치마크 지표를 단일 대시보드에 표시합니다.

이는 모델 선택, 배포, 재시작, 중지 및 성능 테스트를 더 이상 각 머신에 개별적으로 SSH 접속할 필요가 없다는 것을 의미합니다. 🎉

이번 주에 이 도구를 공개할 예정입니다. 🎉❤️ 이러한 놀라운 장치를 구축해 준 @NVIDIAAI와 지원을 해준 @ASUSTR에게 큰 감사를 표합니다. 🚀

Insights

Hugging Face 모델 ID를 받아 자동으로 다운로드하고 분산 서비스하는 4× DGX Spark 클러스터 관리 도구 설계

요약

핵심 포인트

댓글

Uber (UBER)를 보유해야 하는 설득력 있는 이유

Claude Code, Codex, Gemini를 포함한 12개의 AI 코딩 에이전트를 Visual Studio Code 내에서 팀으로서

UsbGpib V3, 새로운 오픈 소스 컨버터인 GPIBee로 하드웨어 설계 업데이트

Skillware 0.4.8 — 모든 에이전트를 위한 오프라인 프롬프트 인젝션 방화벽 (Offline Prompt Injection

Claude Code, Codex, Gemini를 포함한 12개의 AI 코딩 에이전트를 Visual Studio Code 내에서 팀으로서

UsbGpib V3, 새로운 오픈 소스 컨버터인 GPIBee로 하드웨어 설계 업데이트

Skillware 0.4.8 — 모든 에이전트를 위한 오프라인 프롬프트 인젝션 방화벽 (Offline Prompt Injection