arXiv논문2026. 06. 30. 12:12

강화학습 (Reinforcement Learning)을 이용한 풍력 발전소 내 데이터 센터의 에너지 최적화 운영 연구

요약

풍력 발전과 통합된 데이터 센터의 에너지 효율을 높이기 위해 강화학습 기반의 온라인 컨트롤러를 연구한 논문입니다. PPO와 SAC 모델을 활용하여 워크로드 이동을 최적화하며, 모방 학습과 보상 형성을 통해 성능을 개선하는 방안을 제시합니다.

핵심 포인트

풍력 에너지와 데이터 센터 워크로드 간의 최적화 연구
강화학습의 신용 할당 문제 해결을 위한 모방 학습 적용
PPO 및 SAC 변형 모델의 우수한 경험적 성능 확인
온라인 결정 방식의 한계와 오프라인 최적화 도구와의 비교

본 논문은 풍력 터빈 통합형 고성능 컴퓨팅 (HPC) 데이터 센터에서 출력 제한 (curtailment)을 고려한 워크로드 이동 (workload shifting)을 위한 온라인 컨트롤러로서 강화학습 (Reinforcement Learning)을 연구합니다. 우리는 합성 풍력 및 가격 신호, 그리고 지연된 완료 피드백을 포함하며, 더 복잡한 시나리오로 확장 가능하도록 설계된 재현 가능한 고정 일수 시뮬레이션 프레임워크를 소개합니다. 통제된 벤치마킹 기반으로서, 우리는 하나의 풍력 터빈과 하나의 동시 배치된 데이터 센터가 있는 최소 사례에 집중합니다. 이러한 설정에서 순수 강화학습 (Reinforcement Learning)은 뚜렷한 신용 할당 (credit-assignment) 문제를 보이며, 하루의 이른 시간에 무료 풍력 에너지를 과소 사용하는 경향이 있습니다. 따라서 우리는 두 가지 상호 보완적인 대응책인 최적화 기반 모방 학습 (Imitation Learning)과 잠재 기반 보상 형성 (potential-based Reward Shaping)을 평가합니다. 멀티 시드 (multi-seed) 학습과 200일 테스트 세트에 걸쳐, 근사 정책 최적화 (Proximal Policy Optimization, PPO)와 추가적인 온-폴리시 (on-policy) 업데이트 루틴을 갖춘 Soft Actor-Critic (SAC) 변형 모델이 학습된 정책들 중 강력한 경험적 성능을 달성하였으며, 모방 학습 (Imitation Learning)과 보상 형성 (Reward Shaping) 모두 관련 구성에서 개선을 제공합니다. 최적화 도구(optimizer)와의 성능 격차는 여전히 존재하며, 이는 예상된 결과입니다. 최적화 도구는 하루 전체의 예견을 가지고 오프라인으로 계획하는 반면, 강화학습 (Reinforcement Learning)은 미래의 실현 없이 현재의 관측값으로부터 온라인으로 결정해야 하기 때문입니다. 벤치마크 및 어블레이션 (ablation) 결과는 이 접근 방식을 더 풍부한 멀티 사이트 및 연속 시간 시나리오로 확장하기 위한 투명한 기반을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습 (Reinforcement Learning)을 이용한 풍력 발전소 내 데이터 센터의 에너지 최적화 운영 연구

요약

핵심 포인트

댓글