본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 10:48

심층 강화학습 (Deep Reinforcement Learning)에서 상태 표현의 중요성: 에너지 거래에 대한 적용

요약

에너지 거래 환경에서 심층 강화학습(DRL) 에이전트의 성능을 결정짓는 상태 표현(State Representation)의 중요성을 연구했습니다. 다양한 시장 특징 조합을 실험한 결과, 단일 특징군보다 절대적, 상대적, 예측 특징을 결합했을 때 가장 강력한 성능과 견고한 전이 능력을 보였습니다.

핵심 포인트

  • 상태 표현은 단순 전처리가 아닌 정책 설계의 핵심 요소임
  • 절대적, 상대적, 예측 특징을 결합할 때 최적의 성능 발휘
  • 단일 특징군 사용 시 교차 구역(Cross-zone) 성능이 저하됨
  • 견고한 모델 전이를 위해 다각적인 가격 맥락 정보 결합 필요

에너지 거래 결정은 현재 시장 가격뿐만 아니라 예상되는 미래 시장 상황 및 운영 제약 조건에도 의존합니다. 이로 인해 강화학습 (Reinforcement Learning) 에이전트에게 제공되는 상태 표현 (State Representation)은 중요한 설계 선택 사항이 됩니다. 본 연구에서는 고정된 Double DQN 에이전트를 사용하여 양수 발전 차익 거래 환경인 HydroDam에서 이를 연구합니다. 환경, 행동 공간 (Action Space), 보상 함수 (Reward Function), 네트워크 및 훈련 프로토콜은 고정된 상태로 유지하며, 오직 시장 특징 (Market Features)만을 변경합니다. 우리는 절대 가격/달력 특징 (Absolute Price/Calendar Features), 현재 가격을 최근 시장 이력과 비교하는 상대적 특징 (Relative Features), 예측 특징 (Forecast Features), 그리고 이 세 가지 특징군(Feature Families)의 모든 조합을 비교합니다. 정책은 2007--2011년 벨기에의 익일 전력 가격을 사용하여 훈련 및 선택되었으며, 두 가지 테스트 설정에서 평가되었습니다: 2012--2025년의 동일 시장 후기 테스트 세트와 39개의 다른 ENTSO-E 시장 구역입니다. 절대적 특징 (Absolute Features)은 테스트 세트에서 28.8%에 도달했으며, 구역 전체 중앙값은 5.7%에 그쳤습니다. 상대적 특징만 사용하거나 예측 특징만 사용한 상태 또한 교차 구역 (Cross-zone) 중앙값에서 이동 평균 가격 점수 휴리스틱 (Rolling Price-score Heuristic) 미만으로 머물렀습니다. 특징군을 결합하는 것은 훨씬 더 강력한 성능을 보였습니다: 절대적 + 상대적 특징 조합은 테스트 세트에서 49.9%, 교차 구역 중앙값에서 39.8%에 도달했으며, 절대적 + 상대적 + 예측 특징 조합은 55.6% 및 47.5%에 도달했습니다. 이러한 결과는 상태 표현이 저장 장치 거래 강화학습 (Storage-trading RL)에서 사소한 전처리 선택 사항이 아니라, 정책 설계의 핵심 부분임을 시사합니다. 즉, 견고한 전이 (Robust Transfer)를 위해서는 단일 특징군에 의존하기보다 가격 규모 (Price Scale), 최근 상대적 가격 맥락 (Recent Relative Price Context), 그리고 단기 예측 정보 (Short-horizon Forecast Information)를 결합해야 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0