100MW 이상의 AI 클러스터 구축부터 런타임 최적화까지
요약
AGI 경쟁의 핵심 병목인 AI 데이터 센터의 전력 관리 프로세스를 다룹니다. 150MW 규모의 GB200 GPU 클러스터를 대상으로 초기 계획부터 동적 런타임 최적화까지의 엔드 투 엔드 사례를 제시합니다.
핵심 포인트
- AI 가속기 가용성을 넘어 전력 공급이 핵심 병목으로 부상
- 150MW 규모의 83K GB200 GPU 클러스터 실측 데이터 제공
- 초기 전력 계획부터 동적 런타임 관리까지의 통합 프로세스 기술
AI 데이터 센터를 위한 전력 공급은 이제 AI 가속기(AI accelerator) 가용성 제약을 넘어, 범용 인공지능(AGI)을 향한 경쟁에서 가장 중요한 병목 현상이 되었습니다. 저희가 알기로는, 본 논문은 차세대 가속기가 일반에 공개되기 6~12개월 전의 초기 전력 계획부터, 대규모 배포 후의 전력 설정 조정, 그리고 최종적으로 진화하는 워크로드(workload)를 위한 동적 런타임(runtime) 전력 관리까지, 하이퍼스케일(hyper-scale) AI 데이터 센터를 위한 엔드 투 엔드(end-to-end) 전력 관리 프로세스를 기술하는 첫 번째 사례입니다. 저희는 83K 개의 GB200 GPU 클러스터를 수용하는 150 MW 데이터 센터에 대한 상세한 전력 측정 데이터를 제시합니다. 또한 이 최첨단 AI 클러스터를 구축하며 얻은 통찰을 공유합니다. 저희는 이 연구가 업계 전반의 실무자들이 각자의 경험을 공유하도록 독려하는 계기가 되기를 바랍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기