arXiv논문2026. 06. 09. 12:48

OmniGameArena: 개선 역학(Improvement Dynamics)을 포함한 VLM 게임 에이전트를 위한 통합 UE5 벤치마크

요약

VLM 에이전트의 성능을 다각도로 평가하기 위한 통합 벤치마크인 OmniGameArena를 제안합니다. Unreal Engine 5 기반의 12개 게임을 통해 솔로, PvP, 협동 플레이를 지원하며, 에이전트의 성찰 능력을 측정하는 IDC 지표를 도입했습니다.

핵심 포인트

UE5 기반 12개 게임을 포함한 통합 VLM 벤치마크 구축
솔로, PvP, 협동 플레이를 아우르는 다양한 게임 환경 제공
에이전트 성찰 능력을 평가하는 IDC 지표 도입
에이전트의 점수 진화 및 태스크 변형 대응력 측정 가능

시각-언어 모델 (Vision-language model, VLM) 에이전트가 상호작용 가능한 게임 환경에 점점 더 많이 배치되고 있습니다. 하지만 VLM 에이전트를 위한 게임 벤치마크는 일반적으로 (에이전트, 게임) 쌍당 단일 첫 시도 점수만을 보고하며, 단일 에이전트의 솔로 (Solo) 플레이에 집중하고, 이질적인 에이전트 클래스(상용 VLM, 오픈 웨이트 (open-weight) VLM, 특화된 게임 정책)를 동일한 조건에서 평가하기 위한 통합된 프로토콜이 부족합니다. 우리는 OmniGameArena를 통해 이러한 격차를 해소합니다. OmniGameArena는 통합된 액션 인터페이스를 갖춘 솔로 (7개), PvP (3개), 협동 (Coop, 2개)을 아우르는 새롭게 구축된 12개의 Unreal Engine 5 게임을 포함하는 실시간 벤치마크입니다. 또한, 도구를 사용하는 리플렉터 (reflector) LLM이 여러 라운드에 걸쳐 제한된 기술 프롬프트를 자율적으로 개선하는 에이전트 성찰 하네스(agentic-reflection harness)인 개선 역학 곡선 (Improvement Dynamics Curve, IDC)을 제공합니다. 콜드 스타트 (cold-start) 리더보드 점수를 넘어, IDC는 각 (에이전트, 게임) 쌍에 대해 두 가지 추가적인 관찰 가능 지표를 노출합니다: 성찰 라운드에 따라 점수가 어떻게 진화하는지, 그리고 학습된 기술이 홀드아웃 (held-out) 태스크 변형에서 어떻게 작동하는지입니다. 우리는 콜드 스타트 리더보드에서의 12개 VLM 에이전트와 IDC 환경에서의 상위 4개 에이전트에 대한 이러한 관찰 지표를 보고합니다.

AI 자동 생성 콘텐츠

원문 바로가기

OmniGameArena: 개선 역학(Improvement Dynamics)을 포함한 VLM 게임 에이전트를 위한 통합 UE5 벤치마크

요약

핵심 포인트

댓글