arXiv논문2026. 06. 18. 12:30

중요한 것을 예측하기: 미지의 출발 시간을 고려한 제어형 EV 충전을 위한 의사결정 중심 강화학습 (Decision-Focused RL)

요약

전기차(EV) 충전 시 출발 시간과 같은 미지의 정보를 예측할 때 발생하는 오차를 줄이기 위한 '의사결정 중심 강화학습(DF-RL)' 프레임워크를 제안합니다. 예측기와 컨트롤러를 엔드투엔드로 공동 학습시켜, 예측 오차가 의사결정 품질을 저해하는 문제를 해결합니다.

핵심 포인트

미지의 출발 시간을 고려한 제어형 EV 충전 프레임워크 제안
예측 오차가 컨트롤러 성능을 저해하는 문제 해결을 위한 DF-RL 도입
예측기와 RL 에이전트 간의 엔드투엔드 공동 학습 방식 적용
기존 방식 대비 총 보상 최대 14% 향상 및 미공급 에너지 55% 감소

최근 전기차 (EV) 도입의 증가는 피크 수요 증가 및 잠재적인 그리드 불안정성을 포함하여 전력 시스템에 과제를 제기하고 있습니다. 강화학습 (RL) 등에 기반한 스마트한 EV 충전 제어는 과거 데이터로부터 시간적 및 맥락적 패턴을 학습함으로써 이러한 문제를 완화할 수 있습니다. 그러나 실제 시나리오에서는 출발 시간과 같은 핵심 특징 (features)을 사용할 수 없는 경우가 많습니다. 이는 결과적으로 RL 에이전트가 효과적인 충전 정책을 학습하고 실행하는 것을 더 어렵게 만듭니다. 이러한 불확실성을 완화하기 위해, 학습된 예측기 (forecaster)는 가용한 데이터로부터 미지의 특징들을 근사할 수 있습니다. 하지만 이러한 예측 모델들은 일반적으로 (하위 에이전트의 의사결정 품질에 미치는 영향보다는) 정확도를 위해 학습되기 때문에, 예측 오차가 전파되어 예측치를 사용하는 컨트롤러의 전반적인 성능을 저해할 수 있습니다. 이를 방지하기 위해, 우리는 예측기가 엔드투엔드 (end-to-end)로, 즉 RL 에이전트가 취한 충전 정책 행동으로부터의 피드백을 통해 학습되는 의사결정 중심 강화학습 (Decision-Focused RL, DF-RL) 프레임워크를 제안합니다. 예측기와 컨트롤러의 이러한 공동 학습은 궁극적으로 더 높은 품질의 행동을 결과로 가져옵니다. 우리가 제안하는 DF-RL 방법은 출발 시간 예측이 없는 RL 방법과 비교했을 때, 총 보상 (total reward)에서 최대 14%의 향상을 달성하고 미공급 에너지 (unsupplied energy, 즉 EV가 이미 떠나버려 충전이 이루어지지 못한 경우)를 55% 감소시키는 등 다른 베이스라인들에 비해 우수한 충전 의사결정을 생성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

중요한 것을 예측하기: 미지의 출발 시간을 고려한 제어형 EV 충전을 위한 의사결정 중심 강화학습 (Decision-Focused RL)

요약

핵심 포인트

댓글