얼마나 오래 공격해야 할까? 격투 게임에서의 행동 지속 시간 (Action Duration) 학습
요약
격투 게임 강화학습 에이전트가 행동의 종류뿐만 아니라 실행 지속 시간(duration)을 함께 학습하는 새로운 의사결정 프레임워크를 제안합니다. 고정된 프레임 간격 대신 동적인 타이밍 조절을 통해 반응성을 최적화하고자 하며, FightLadder 환경을 통해 실험을 진행했습니다. 실험 결과, 에이전트는 특정 상황에서 낮은 반응성을 유지하며 스크립트 기반 봇의 취약점을 공략하는 전략을 학습하는 경향을 보였습니다.
핵심 포인트
- 에이전트가 행동(Action)과 지속 시간(Duration)을 동시에 예측하여 반응성을 동적으로 조절함
- 고정된 프레임 스킵 방식과 학습된 지속 시간 방식의 성능 및 반응성 비교 분석
- 학습된 에이전트가 낮은 반응성(높은 프레임 스킵)을 가질 때 스크립트 기반 봇을 상대로 착취적 전략을 사용하기 쉬움
- 지속 시간 학습이 반드시 모델의 강건성(Robustness)을 보장하는 것은 아님
Street Fighter II와 같은 격투 게임은 빠르고 실시간으로 진행되는 특성 때문에 강화학습 (RL) 에이전트에게 독특한 과제를 제시합니다. 대부분의 RL 프레임워크에서 에이전트는 일반적으로 매 프레임 또는 N 프레임마다 고정된 간격으로 결정을 내리도록 하드코딩되어 있습니다. 이러한 설계는 적시의 반응을 보장하지만, 에이전트가 반응 타이밍을 조절하는 능력을 제한합니다. 매 프레임마다 행동하는 것은 인간 플레이어와 비교했을 때 비현실적인 프레임 단위의 완벽한 반사 신경을 부여하는 반면, 더 긴 고정 간격은 계산 비용을 줄이지만 반응성을 저해합니다. 우리는 에이전트가 어떤 행동을 취할지뿐만 아니라 그 행동을 얼마나 오래 실행할지도 학습하는 대안적인 의사결정 프레임워크를 고려합니다. 행동과 지속 시간 (duration)을 함께 예측함으로써, 에이전트는 게임 내의 다양한 상황에 맞춰 반응성을 동적으로 조정할 수 있습니다. 우리는 오픈 소스 FightLadder 환경을 사용하여 이 방법을 구현하였으며, 스크립트 기반의 내장 봇을 상대로 에이전트를 학습시켰습니다. 또한 다양한 프레임 스킵 (frame skip) 설정을 체계적으로 테스트하여 성능, 반응성 및 학습된 행동에 미치는 영향을 분석했습니다. 실험 결과, 학습된 타이밍은 잘 선택된 고정 프레임 스킵의 성능과 일치할 수 있고 반복 가능한 행동 패턴을 장려하지만, 그 자체만으로 강건성 (robustness)을 보장하지는 않는다는 것을 보여줍니다. 대부분의 경우, 우리는 에이전트가 일관되게 높은 프레임 스킵 값(즉, 낮은 반응성)을 가질 때 가장 잘 수행하는 것을 확인했습니다. 이러한 전략은 동일한 행동을 계속해서 반복하는 착취적 전략 (exploitative strategies)을 학습하기 더 쉽게 만들며, 스크립트 기반 봇들은 이러한 전략에 취약한 것으로 보입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기