WallZero: 전략적 분석을 통한 WallGo 게임 마스터하기
요약
AlphaZero 알고리즘을 기반으로 전략 보드 게임 WallGo를 마스터하는 에이전트 'WallZero'를 제안합니다. 맞춤형 액션 및 특징 설계를 통해 프로 바둑 기사를 상대로 승리하며, 게임의 공정성과 핵심 전략을 분석했습니다.
핵심 포인트
- AlphaZero 기반의 WallZero 에이전트 개발
- 맞춤형 액션 및 특징 설계를 통한 성능 향상
- 프로 바둑 기사를 상대로 승리 및 영토 확보 우위 증명
- 게임 공정성 평가 및 최적의 오프닝 전략 식별
WallGo는 2025년 Netflix 시리즈 '더 데블스 플랜 (The Devil's Plan)'을 통해 대중화된 최근 도입된 전략 보드 게임입니다. 7 x 7의 작은 보드에서 진행되지만, 돌의 이동 (stone movement)과 벽 배치 (wall placement)의 결합은 높은 게임 트리 복잡도 (game-tree complexity)와 복잡한 전략적 상호작용을 만들어냅니다. 점점 높아지는 인기에도 불구하고, WallGo는 아직 충분히 연구되지 않았습니다. 본 논문은 2인용 WallGo 환경을 위한 AlphaZero 기반 에이전트인 WallZero를 제시합니다. 우리는 경기 성능을 크게 향상시키기 위해 맞춤형 액션 (action) 및 특징 (feature) 설계를 도입합니다. 평가에서 WallZero는 본 연구에 참여한 두 명의 프로 바둑 기사를 이겼으며, 게임당 평균 1.98배 더 많은 영토를 확보했습니다. 그 강력함 외에도, 우리는 WallZero를 사용하여 게임의 공정성을 평가하고 WallGo를 마스터하기 위한 핵심 전략을 식별합니다. 흥미롭게도, 우리의 결과는 Netflix 시리즈에서 사용된 오프닝 (opening)이 더 균형 잡힌 게임을 만들어낸다는 것을 보여줍니다. 우리의 코드는 https://rlg.iis.sinica.edu.tw/papers/wallzero 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기