arXiv논문2026. 06. 24. 11:10

EMAgnet: 대규모 게임에서의 정책 경사 (Policy Gradient) 셀프 플레이를 위한 파라미터 공간 EMA 정규화

요약

EMAGnet은 셀프 플레이 환경에서 정책 경사 방법론의 성능을 높이기 위해 파라미터 공간의 지수 이동 평균(EMA)을 활용한 적응형 정규화 기법을 제안합니다. 기존의 균등 분포 정규화와 달리 에이전트의 진화하는 전략에 맞춰 정규화 대상을 조정하여 착취 가능성을 낮춥니다.

핵심 포인트

파라미터 공간 EMA를 활용한 적응형 정규화 기법 EMAgnet 제안
기존 균등 분포 정규화의 행동 실행 가능성 무시 문제 해결
2인 제로섬 불완전 정보 게임에서 낮은 착취 가능성 달성
엄격하게 지배되는 전략이 포함된 환경에서 일관된 성능 향상 입증

최근 연구들은 PPO와 같은 정규화된 정책 경사 (Policy Gradient) 방법론이 셀프 플레이 (Self-play)에 사용될 때, 2인 제로섬 불완전 정보 게임 (Two-player zero-sum imperfect-information games)을 해결하기 위한 특화된 게임 이론 알고리즘과 대등하거나 이를 능가할 수 있음을 입증했습니다. 균등 분포 (Uniform distribution)는 이러한 목적을 위한 강력한 정책 정규화 (Policy regularization) 대상으로 부상했으나, 이는 각 행동의 실행 가능성 (Viability)과 관계없이 모든 행동에 대해 동일하게 정규화한다는 단점이 있습니다. 본 논문에서는 대신 마지막 반복 정책 (Last-iterate policy) 파라미터의 지수 이동 평균 (Exponential Moving Average, EMA)을 향해 정규화하여, 에이전트의 개선되는 전략에 따라 진화하는 적응형 정규화 (Adaptive regularization) 대상을 제공하는 EMAgnet을 소개합니다. 우리는 표준 2인 제로섬 벤치마크와 탐색 (Exploration) 과제 및 다수의 엄격하게 지배되는 전략 (Strictly dominated strategies)이 포함된 수정된 벤치마크 모두에서 EMAgnet을 평가합니다. 선형 및 멱법칙 어닐링 (Linear and power-law annealing) 스케줄 하에서의 균등 자석 (Uniform-magnet) 정규화를 적용한 PPO 셀프 플레이와 비교했을 때, EMAgnet은 테스트된 대부분의 환경에서 더 낮은 착취 가능성 (Exploitability)을 달성하였으며, 엄격하게 지배되는 전략이 포함된 게임 전반에서 일관된 성능 향상을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

EMAgnet: 대규모 게임에서의 정책 경사 (Policy Gradient) 셀프 플레이를 위한 파라미터 공간 EMA 정규화

요약

핵심 포인트

댓글