Nash 통합 다중 에이전트 강화학습을 통한 인센티브 정렬형 차량 간(V2V) 에너지 거래
요약
본 논문은 전기차(EV) 간의 효율적이고 공정한 에너지 거래를 위해 Nash 협상 솔루션을 MADDPG에 통합한 Nash-MADDPG 알고리즘을 제안합니다. 실험 결과, 기존 이중 경매 방식보다 사회적 후생과 거래량, 공정성 측면에서 크게 향상된 성능을 보였습니다.
핵심 포인트
- Nash 협상을 통한 효율적인 양자 간 가격 책정 구현
- MADDPG에 Nash 가이드 기반 가격 근접성 보상 통합
- 기존 방식 대비 사회적 후생 61.6% 향상
- 에이전트 수 증가에 따른 우수한 확장성 입증
- Jain의 지수 개선을 통한 거래 공정성 확보
차량 간(Vehicle-to-vehicle, V2V) 에너지 거래는 전기차(Electric Vehicles, EVs) 간의 분산된 피어 투 피어(Peer-to-Peer, P2P) 에너지 교환을 가능하게 하여, 잉여 용량을 수익화하는 동시에 그리드(Grid) 의존도를 낮춥니다. 그러나 다양한 충전 요구 사항과 불확실한 도착-출발 일정을 가진 자기 이익 중심의 EV 에이전트들을 조정하는 것은 여전히 어려운 과제로 남아 있습니다. 기존의 접근 방식들은 계산상의 한계가 있는 중앙 집중식 최적화(Centralized Optimization)를 요구하거나 공정성 보장이 부족합니다. 본 논문은 인센티브가 정렬된 V2V 에너지 거래를 위해 Nash 협상 솔루션(Nash Bargaining Solution)을 다중 에이전트 심층 결정론적 정책 경사(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)에 통합한 Nash-MADDPG를 제안합니다. Nash 협상은 효율적인 양자 간 가격 책정(Bilateral Pricing)을 결정하며, Nash 가이드 기반의 가격 근접성 보상(Price Proximity Rewards)은 에이전트의 학습을 협상 최적 전략(Bargaining-optimal Strategies)으로 정렬시킵니다. 30일간의 연속 운영을 통한 평가 결과, 이중 경매(Double Auction) 방식 대비 사회적 후생(Social Welfare)은 61.6%, 거래량(Trading Volume)은 62.9% 향상되었으며, Jain의 지수(Jain's Index)가 40.1% 개선되는 등 우수한 공정성을 달성했습니다. 30일 기간 동안 6명에서 100명의 에이전트를 대상으로 한 테스트를 통해, 개체 수에 따른 확장성(Scalability)과 Nash 협상 벤치마크 근처에서의 경험적으로 안정적인 가격 책정을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기