r/LocalLLaMA분석2026. 05. 01. 21:49

16 대 스파크 클러스터 구축 업데이트

요약

본 문서는 16대의 DGX Spark 클러스터 구축 과정을 상세히 설명하며, 네트워크 속도(line rate) 달성 및 안정적인 운영 환경을 확보했음을 보고합니다. 이 시스템은 유니피드드 메모리 용량 극대화에 초점을 맞추어 설계되었으며, 대규모 병렬 처리가 필요한 프리필 작업에 활용됩니다. 향후 M5 Ultra Mac Studios를 추가하여 디코드 작업을 분산 처리하는 장기적인 아키텍처 계획을 제시합니다.

핵심 포인트

16대의 DGX Spark 클러스터가 네트워크 패브릭에 성공적으로 연결되어 광고된 200 Gbps의 속도를 달성했습니다.
클러스터 구축 과정은 스크립트 자동화를 통해 효율화되었으며, 각 노드는 사전 구성 요소가 갖춰진 NVIDIA Ubuntu 환경을 기반으로 합니다.
H100/GB300 대신 Spark를 선택한 주된 이유는 NVIDIA 생태계 내에서 유니피드드 메모리 용량을 최대화하는 것이 핵심 목표였기 때문입니다.
시스템은 프리필(Spark 클러스터)과 디코드(M5 Ultra Mac Studios 추가 예정) 작업을 분리하여 병렬 처리 효율을 극대화하도록 설계되었습니다.

구축이 완료되었습니다. 16 대의 DGX Spark 가 네트워크 패브릭에 모두 연결되어 선속도 (line rate) 를 달성했습니다.

설치는 시간이 많이 걸렸지만, 솔직히 예상보다 훨씬 매끄럽게 진행되었습니다. 각 스파크는 NVIDIA 의 Ubuntu 버전을 기본으로 탑재하며, 대부분의 구성 요소가 사전 설치되어 즉시 사용 가능하도록 준비되어 있습니다. 설정을 위해 랙에 장착하고 전원 공급 후 모든 노드에서 동일한 사용자/비밀번호를 생성한 뒤, 각 노드당 약 20 분 동안 업데이트를 기다린 다음, 비밀번호 없이 SSH 를 사용할 수 있도록 설정하고, 자이언트 프레임 (jumbo frames), IP 주소 등을 구성해야 했습니다. 이 과정은 시간을 절약하기 위해 스크립트로 자동화했습니다.

각 Spark 는 단일 QSFP56 케이블로 FS N8510 스위치에 연결됩니다. DGX Spark 는 두 개의 NIC 인터페이스를 하나의 포트에 결합하므로, 한 케이블을 통해 듀얼 레일 (dual rail) 을 사용할 수 있습니다. 현재 각 레일당 100~111 Gbps 의 속도를 관찰하고 있으며, 이는 광고된 200 Gbps 와 일치합니다.

왜 H100 이나 GB300 대신 이 선택을 했나요?

유니피드드 메모리 (Unified memory) 때문입니다. 핵심 목표는 NVIDIA 생태계 내에서 유니피드드 메모리 용량을 최대화하는 것입니다. 8 노드 구성으로 GLM-5.1-NVFP4 (434GB) 를 TP=8 로 서비스를 제공했습니다. 이제 DeepSeek 와 Kimi 로 테스트를 진행할 예정입니다.

장기적인 계획은 프리필 (prefill)/디코드 (decode) 분리가입니다. Spark 클러스터는 대규모 병렬 처리 속도를 필요로 하는 프리필 작업을 담당하고, M5 Ultra Mac Studios 가 출시되면 랙에 2 대에서 4 대를 추가하여 디코드 작업을 수행할 예정입니다.

—

전체 랙 구성 (상단부터 하단까지):

1U 브러시 패널 (Brush Panel)
OPNSense 방화벽
Mikrotik 10Gb 스위치 (인터넷 업링크)
Mikrotik 100Gb 스위치 (HPC 에서 NAS 로)
1U 브러시 패널
QNAP 374TB 전체 U.2 NAS
관리 서버
듀얼 4090 워크스테이션
백업용 듀얼 4090 워크스테이션 (동일한 사양)
FS 200Gbps QSFP56 패브릭 스위치 (Spark 클러스터용)
1U 브러시 패널
8 대 DGX Spark Shelf One
8 대 DGX Spark Shelf Two
2U 스페이서 패널
SuperMicro 4x H100 NVL 스테이션
GH200

AI 자동 생성 콘텐츠

원문 바로가기

16 대 스파크 클러스터 구축 업데이트

요약

핵심 포인트

댓글