arXiv논문2026. 05. 22. 11:20

Nash 통합 다중 에이전트 강화학습을 통한 인센티브 정렬형 차량 간(V2V) 에너지 거래

요약

본 논문은 전기차(EV) 간의 효율적이고 공정한 에너지 거래를 위해 Nash 협상 솔루션을 MADDPG에 통합한 Nash-MADDPG 알고리즘을 제안합니다. 실험 결과, 기존 이중 경매 방식보다 사회적 후생과 거래량, 공정성 측면에서 크게 향상된 성능을 보였습니다.

핵심 포인트

Nash 협상을 통한 효율적인 양자 간 가격 책정 구현
MADDPG에 Nash 가이드 기반 가격 근접성 보상 통합
기존 방식 대비 사회적 후생 61.6% 향상
에이전트 수 증가에 따른 우수한 확장성 입증
Jain의 지수 개선을 통한 거래 공정성 확보

차량 간(Vehicle-to-vehicle, V2V) 에너지 거래는 전기차(Electric Vehicles, EVs) 간의 분산된 피어 투 피어(Peer-to-Peer, P2P) 에너지 교환을 가능하게 하여, 잉여 용량을 수익화하는 동시에 그리드(Grid) 의존도를 낮춥니다. 그러나 다양한 충전 요구 사항과 불확실한 도착-출발 일정을 가진 자기 이익 중심의 EV 에이전트들을 조정하는 것은 여전히 어려운 과제로 남아 있습니다. 기존의 접근 방식들은 계산상의 한계가 있는 중앙 집중식 최적화(Centralized Optimization)를 요구하거나 공정성 보장이 부족합니다. 본 논문은 인센티브가 정렬된 V2V 에너지 거래를 위해 Nash 협상 솔루션(Nash Bargaining Solution)을 다중 에이전트 심층 결정론적 정책 경사(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)에 통합한 Nash-MADDPG를 제안합니다. Nash 협상은 효율적인 양자 간 가격 책정(Bilateral Pricing)을 결정하며, Nash 가이드 기반의 가격 근접성 보상(Price Proximity Rewards)은 에이전트의 학습을 협상 최적 전략(Bargaining-optimal Strategies)으로 정렬시킵니다. 30일간의 연속 운영을 통한 평가 결과, 이중 경매(Double Auction) 방식 대비 사회적 후생(Social Welfare)은 61.6%, 거래량(Trading Volume)은 62.9% 향상되었으며, Jain의 지수(Jain's Index)가 40.1% 개선되는 등 우수한 공정성을 달성했습니다. 30일 기간 동안 6명에서 100명의 에이전트를 대상으로 한 테스트를 통해, 개체 수에 따른 확장성(Scalability)과 Nash 협상 벤치마크 근처에서의 경험적으로 안정적인 가격 책정을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Nash 통합 다중 에이전트 강화학습을 통한 인센티브 정렬형 차량 간(V2V) 에너지 거래

요약

핵심 포인트

댓글