arXiv논문2026. 04. 28. 15:09

GradMAP: 그리드-에지 유연성을 위한 기반 강화학습 다중 에이전트 근접 학습

요약

GradMAP은 그리드 에지 환경의 대규모 기기 군집을 조정하기 위해 기반 강화학습 다중 에이전트 근접 학습(GradMAP)을 제안합니다. 이 방법은 각 에이전트에 독립적인 신경망 정책을 학습시키고, 온라인 의사결정 시 통신 없이 로컬 관측만 사용하면서도 3상 AC 배전망의 물리 법칙과 네트워크 제약 조건을 준수하도록 설계되었습니다. GradMAP은 원형-쌍대 학습 루프와 암묵적 미분을 사용하여 정확한 전력 흐름 모델을 통합하고, 근접 서브리거트를 통해 환경 그래디언트 재사용으로 높은 학습 효율성을 달성하여 복잡한 그리드 제어 문제를 효과적으로 해결합니다.

핵심 포인트

GradMAP은 대규모 분산 시스템(그리드 에지)의 물리적 제약 조건(3상 AC 배전망 법칙)을 준수하는 다중 에이전트 정책 학습 프레임워크입니다.
각 에이전트는 독립적인 신경망 정책을 가지며, 온라인 운영 시 통신 없이 로컬 관측만으로 의사결정을 수행합니다.
학습 과정에서 원형-쌍대 루프와 암묵적 미분을 사용하여 전력 흐름 모델의 제약 조건을 정확하게 반영하고 위반을 전파합니다.
근접 서브리거트를 활용하여 환경 그래디언트 재사용(Gradient Reuse)을 수행함으로써 기존 방법 대비 학습 속도를 3~5배 향상시켰습니다.
실제 사례 연구에서 GradMAP은 낮은 운영 비용과 최소한의 제약 조건 위반을 달성하며 높은 효율성을 입증했습니다.

그리드 에지의 대규모 기기 군집을 조정하려면, 배포 시 완전히 분산된 학습 방법을 사용하면서도 3상 AC 배전망 물리 법칙을 준수해야 합니다. 본 논문은 이 과제를 해결하기 위해 기반 강화학습 다중 에이전트 근접 학습 (GradMAP) 을 제안합니다. GradMAP 은 매개변수 공유 없이 각 에이전트에 대해 독립적인 신경망 정책을 학습시키며, 온라인 의사결정 시 통신 없이 각 에이전트가 자신의 로컬 관측만 사용합니다. 오프라인 학습 중 GradMAP 은 원형-쌍대 학습 루프 (primal-dual learning loop) 에 미분 가능한 3상 AC 전력 흐름 모델을 내장하고, 암묵적 미분을 사용하여 정확한 네트워크 제약 조건 위반을 전파하여 정책 매개변수를 업데이트합니다. 학습 속도를 높이기 위해 GradMAP 은 다른 연구들 (예: PPO) 에서 사용하는 확률 분포 공간 대신 더 직접적인 정책 출력 (행동) 공간에서 정의된 신뢰 영역 내에서 근접 서브리거트를 통해 비용이 많이 드는 환경 그래디언트를 재사용합니다. IEEE 123 버스 피더에서 배터리, 히트펌프, 제어 가능 발전기를 관리하는 1,000 개의 에이전트를 대상으로 한 사례 연구에서 GradMAP 은 단일 워크스테이션급 NVIDIA RTX PRO 5000 Blackwell 48GB GPU 에서 15 분 이내의 학습으로 3상 AC 부하 흐름 제약 조건 위반을 최소화하는 분산 정책을 학습합니다. 이는 기반 강화학습 자기지도 학습 벤치마크보다 3~5 배 빠른 학습 속도이며, 다중 에이전트 강화학습 벤치마크보다 월등히 우수한 학습 효율성을 보입니다. 표본 외 테스트에서 GradMAP 은 가장 낮은 운영 비용과 제약 조건 위반 중 하나를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

GradMAP: 그리드-에지 유연성을 위한 기반 강화학습 다중 에이전트 근접 학습

요약

핵심 포인트

댓글