RTSGameBench: 시각-언어 모델(VLMs)의 전략적 추론을 위한 RTS 벤치마크
요약
시각-언어 모델(VLMs)의 전략적 추론 능력을 평가하기 위한 새로운 RTS 벤치마크인 RTSGameBench를 제안합니다. Beyond All Reason 게임을 기반으로 다양한 매치업과 자기 진화형 생성 프레임워크를 통해 모델의 한계를 체계적으로 진단합니다.
핵심 포인트
- VLMs의 전략적 추론 및 장기 계획 능력 진단
- Beyond All Reason 기반의 확장된 RTS 벤치마크 구축
- 자기 진화형 생성 프레임워크를 통한 확장성 확보
- 에이전트 메모리를 갖춘 RTSGameAgent 제공
- 최신 VLMs의 다중 에이전트 협력 및 대규모 작업 한계 입증
현대의 시각-언어 모델 (Vision-Language Models, VLMs)은 경쟁적 및 협력적 환경에서의 불확실성 속에서, 즉 다른 에이전트의 행동을 예측하고 영향을 미치는 전략적 추론 (strategic reasoning)에 종종 어려움을 겪습니다. 실시간 전략 (Real-time strategy, RTS) 게임은 아군과의 협력, 상대방의 전략에 대한 적응, 그리고 부분 관측 가능성 (partial observability) 하에서의 장기 계획 (long-horizon planning)을 요구하기 때문에, 이러한 한계를 진단하기 위한 자연스러운 테스트베드가 될 수 있습니다. 그러나 기존의 RTS 벤치마크는 평가 범위가 제한적이고, 체계적인 역량 진단이 부족하며, 미리 설계된 시나리오 범위 내에 고정되어 있다는 한계가 있습니다. 이러한 한계를 해결하기 위해, 우리는 기존 테스트베드보다 더 넓은 전략적 다양성을 요구하는 확장된 전장을 가진 대규모 RTS 게임인 Beyond All Reason을 기반으로 구축된 RTSGameBench를 제시합니다. 제안된 벤치마크는 다양한 매치업 구조를 통한 다양한 게임 플레이, 개별적인 전략적 역량을 목표로 하는 미니 게임을 통한 진단적 평가, 그리고 자유 형식의 쿼리를 새로운 미니 게임으로 변환하여 연속적인 사이클을 통해 개선되는 자기 진화형 생성 프레임워크 (self-evolving generation framework)를 통한 확장 가능한 범위를 제공합니다. 또한, VLMs가 대규모 RTS 게임에서 작동할 수 있도록, 에이전트 메모리 (agentic memory)를 가진 유한 상태 기계 (FSM)로 유닛을 관리하는 RTSGameAgent를 제공합니다. 우리는 여러 최첨단 (state-of-the-art) VLMs가 매치업이 더 긴밀한 협력과 다중 에이전트 협력 (multiagent coordination)을 요구하거나 작업 규모가 커질 때 제대로 성능을 발휘하지 못한다는 것을 실증적으로 검증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기