중요한 것을 예측하기: 미지의 출발 시간을 고려한 제어형 EV 충전을 위한 의사결정 중심 강화학습 (Decision-Focused RL)
요약
전기차(EV) 충전 시 출발 시간과 같은 미지의 정보를 예측할 때 발생하는 오차를 줄이기 위한 '의사결정 중심 강화학습(DF-RL)' 프레임워크를 제안합니다. 예측기와 컨트롤러를 엔드투엔드로 공동 학습시켜, 예측 오차가 의사결정 품질을 저해하는 문제를 해결합니다.
핵심 포인트
- 미지의 출발 시간을 고려한 제어형 EV 충전 프레임워크 제안
- 예측 오차가 컨트롤러 성능을 저해하는 문제 해결을 위한 DF-RL 도입
- 예측기와 RL 에이전트 간의 엔드투엔드 공동 학습 방식 적용
- 기존 방식 대비 총 보상 최대 14% 향상 및 미공급 에너지 55% 감소
최근 전기차 (EV) 도입의 증가는 피크 수요 증가 및 잠재적인 그리드 불안정성을 포함하여 전력 시스템에 과제를 제기하고 있습니다. 강화학습 (RL) 등에 기반한 스마트한 EV 충전 제어는 과거 데이터로부터 시간적 및 맥락적 패턴을 학습함으로써 이러한 문제를 완화할 수 있습니다. 그러나 실제 시나리오에서는 출발 시간과 같은 핵심 특징 (features)을 사용할 수 없는 경우가 많습니다. 이는 결과적으로 RL 에이전트가 효과적인 충전 정책을 학습하고 실행하는 것을 더 어렵게 만듭니다. 이러한 불확실성을 완화하기 위해, 학습된 예측기 (forecaster)는 가용한 데이터로부터 미지의 특징들을 근사할 수 있습니다. 하지만 이러한 예측 모델들은 일반적으로 (하위 에이전트의 의사결정 품질에 미치는 영향보다는) 정확도를 위해 학습되기 때문에, 예측 오차가 전파되어 예측치를 사용하는 컨트롤러의 전반적인 성능을 저해할 수 있습니다. 이를 방지하기 위해, 우리는 예측기가 엔드투엔드 (end-to-end)로, 즉 RL 에이전트가 취한 충전 정책 행동으로부터의 피드백을 통해 학습되는 의사결정 중심 강화학습 (Decision-Focused RL, DF-RL) 프레임워크를 제안합니다. 예측기와 컨트롤러의 이러한 공동 학습은 궁극적으로 더 높은 품질의 행동을 결과로 가져옵니다. 우리가 제안하는 DF-RL 방법은 출발 시간 예측이 없는 RL 방법과 비교했을 때, 총 보상 (total reward)에서 최대 14%의 향상을 달성하고 미공급 에너지 (unsupplied energy, 즉 EV가 이미 떠나버려 충전이 이루어지지 못한 경우)를 55% 감소시키는 등 다른 베이스라인들에 비해 우수한 충전 의사결정을 생성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기