본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 02:58

데이터센터 대규모 AI 학습 부하의 전력 변동 완화 기술: EasyRider

요약

대규모 AI 모델 훈련 워크로드는 GPU 수천 개가 동기식 루프를 돌며 작동하므로, 시작/종료 및 체크포인팅 과정에서 전력 소비가 급격히 변동합니다. 이러한 큰 부하 스윙은 그리드 인프라에 과도한 스트레스(급격한 전력 램프율, 전압/주파수 변화)를 주어 변압기나 컨버터 손상을 유발할 수 있습니다. 본 논문에서 제안하는 EasyRider는 패시브 부품과 능동 제어 보조 에너지 저장 시스템을 활용하여 랙 레벨의 전력 변동을 완화합니다. 이는 AI 프레임워크 수정 없이 그리드 안전 기준을 충족시키며, 실제 프로토타입 테스트를 통해 그 효

핵심 포인트

  • EasyRider는 패시브 부품과 능동 제어 보조 에너지 저장 시스템을 결합하여 랙 레벨의 전력 변동을 완화합니다.
  • 이 기술은 AI 학습 프레임워크에 소프트웨어 수정 없이 그리드 안전 기준을 충족시키도록 설계되었습니다.
  • EasyRider는 400VDC급 프로토타입 시스템에서 다양한 워크로드 및 이질적인 전력 레벨에 걸쳐 그 효과를 입증했습니다.

대규모 인공지능(AI) 모델 학습 워크로드는 수천 개의 GPU가 매우 긴밀하게 동기화된 루프 속에서 작동하는 특성을 가집니다. 이러한 동기식 통신 과정, 시스템 시작 및 종료 시점, 그리고 체크포인팅 과정에서 GPU의 전력 소비는 밀리초(milliseconds) 단위로 피크 부하에서 유휴 상태까지 급격히 변동합니다.

이러한 크고 빠른 부하 스윙은 그리드 인프라에 심각한 위험을 초래합니다. 이는 가파른 전력 램프율(steep power ramp rates), 전압 및 주파수 변화, 그리고 무효 전력 과도 현상(reactive power transients)을 유발할 수 있으며, 결과적으로 변압기(transformers), 컨버터(converters), 보호 장비 등의 손상을 야기할 수 있습니다.

이에 대한 해결책으로 본 논문은 EasyRider라는 전력 아키텍처를 제안합니다. EasyRider는 랙 레벨에서 발생하는 전력 변동을 완화하는 것을 목표로 하며, 패시브(passive) 부품과 능동적으로 제어되는 보조 에너지 저장 시스템(auxiliary energy storage)을 활용하여 랙의 전력 스윙을 감쇠시킵니다.

가장 주목할 만한 점은 EasyRider가 AI 학습 프레임워크에 소프트웨어적인 수정이 필요 없다는 것입니다. 이 시스템은 지속적으로 에너지 저장 시스템을 모니터링하고 최적화함으로써, 잦은 충전/방전 사이클에도 배터리 수명을 극대화하는 동시에, 전력 변동을 그리드 안전 요구사항 내로 필터링합니다.

연구진은 400VDC급 프로토타입 시스템을 사용하여 EasyRider의 성능을 검증했습니다. 이 테스트는 공개된 워크로드 트레이스(workload traces)와 자체 GPU 테스트베드를 통해 진행되었으며, 다양한 이질적인 전력 레벨과 워크로드 전력 프로파일에 걸쳐 그 효과를 입증하였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0