본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 15. 03:46

Hugging Face 모델 ID를 받아 자동으로 다운로드하고 분산 서비스하는 4× DGX Spark 클러스터 관리 도구 설계

요약

Hugging Face 모델 ID를 받아 자동으로 다운로드하고, 이를 4대의 DGX Spark 클러스터에 분산하여 서비스하는 관리 도구를 설계했습니다. 이 도구는 vLLM/Ray 기반의 분산 추론을 통해 대규모 MoE 모델(예: Qwen3.5-397B)을 효율적으로 실행하며, 통합된 상태 모니터링 및 성능 테스트 기능을 제공합니다.

핵심 포인트

  • Hugging Face ID로 자동 다운로드 및 배포 가능
  • vLLM/Ray 기반의 4노드 분산 추론 구현
  • 대규모 MoE 모델(Qwen3.5-397B) 실행 지원
  • 클러스터 상태, RAM 사용량 등 통합 대시보드 제공

저는 Hugging Face 모델 ID가 주어지면 해당 모델을 자동으로 다운로드하고, 4대의 모든 머신에 분배하여 헤드 노드를 통해 서비스를 제공하는 관리 도구를 설계했습니다.

모델은 먼저 헤드 노드에 다운로드된 후, 200G 패브릭을 통해 다른 DGX Spark 노드들로 동기화되고, vLLM/Ray를 기반으로 하는 분산 추론(distributed inference)으로 실행됩니다.

NVFP4 지원 덕분에 Qwen3.5-397B-A17B-NVFP4와 같은 대규모 MoE 모델을 4개 노드에 걸쳐 실행할 수 있었습니다. 이 도구는 또한 OpenWebUI 연결 상태, 클러스터 상태 확인(cluster health checks), 노드별 통합 RAM 사용량, 그리고 총 토큰/초 벤치마크 지표를 단일 대시보드에 표시합니다.

이는 모델 선택, 배포, 재시작, 중지 및 성능 테스트를 더 이상 각 머신에 개별적으로 SSH 접속할 필요가 없다는 것을 의미합니다. 🎉

이번 주에 이 도구를 공개할 예정입니다. 🎉❤️ 이러한 놀라운 장치를 구축해 준 @NVIDIAAI와 지원을 해준 @ASUSTR에게 큰 감사를 표합니다. 🚀

AI 자동 생성 콘텐츠

본 콘텐츠는 X @alicankiraz0 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0