arXiv논문2026. 06. 17. 11:09

GameCraft-Bench: 에이전트가 실제 게임 엔진에서 엔드투엔드(End-to-End)로 플레이 가능한 게임을 제작할 수 있는가?

요약

에이전트가 게임 엔진 내에서 플레이 가능한 게임을 생성할 수 있는지 평가하는 새로운 벤치마크인 GameCraft-Bench를 제안합니다. Godot 엔진을 기반으로 엔진 그라운딩, 아티팩트 완전성, 상호작용 검증을 통해 에이전트의 게임 생성 능력을 다각도로 분석합니다.

핵심 포인트

엔드투엔드 게임 생성을 위한 새로운 평가 프레임워크 제안
Godot 엔진 기반 140개 태스크로 구성된 GameCraft-Bench 구축
최첨단 코딩 에이전트의 게임 생성 성공률은 41.46%로 매우 낮음
에이전트가 메카닉 구현은 가능하나 콘텐츠 및 시각적 일관성 유지에 어려움을 겪음

게임 생성(Game generation)은 코딩 에이전트(coding agents)의 신흥 응용 분야로, 모델이 자연어 명세(natural-language specifications)를 플레이 가능한 상호작용 시스템으로 변환할 것을 요구합니다. 전통적인 코딩 작업과 달리, 게임 생성은 스크립트, 씬(scenes), 에셋(assets), 렌더링(rendering), 그리고 런타임 상호작용(runtime interactions)이 결합하여 일관된 게임플레이를 생성해야 하는 게임 엔진(game engine) 내에서 이루어집니다. 우리는 엔드투엔드(end-to-end) 게임 생성을 타겟 환경에서 관찰 가능한 플레이어-게임 상호작용을 통해 명세를 실현하는 완전한 게임 아티팩트(game artifact)를 생성하는 문제로 공식화합니다. 우리는 이 설정을 평가하기 위해 세 가지 필수 요소인 엔진 그라운딩(Engine Grounding), 아티팩트 완전성(Artifact Completeness), 그리고 상호작용 검증(Interactive Verification)이 필요하다고 주장합니다. 우리는 재생된 데모(replayed demonstrations)와 루브릭 가이드 기반의 멀티모달 판정(rubric-guided multimodal judging)을 통해 실행 가능한 게임플레이를 평가하는 상호작용 기반 평가 프레임워크를 제안합니다. 우리는 이 프레임워크를 15개의 게임 패밀리에 걸친 140개의 Godot 태스크로 구성된 벤치마크인 GameCraft-Bench로 구현합니다. 최첨단 코딩 에이전트들을 평가한 결과, 엔드투엔드(end-to-end) 게임 생성은 여전히 매우 도전적인 과제임을 보여줍니다. 가장 강력한 에이전트가 단 41.46%를 달성했을 뿐이며, 대부분의 에이전트는 40% 미만의 점수를 기록했습니다. 추가 분석에 따르면, 에이전트들이 종종 인식 가능한 메카닉(mechanics)을 구현하기는 하지만, 충분한 콘텐츠, 기능적인 시각적 피드백, 그리고 일관된 프레젠테이션을 갖춘 완전한 게임을 제공하는 데 어려움을 겪는 것으로 나타났습니다. 데모, 코드 및 데이터는 https://tongxuluo.github.io/gamecraft-bench-website 를 참조하십시오.

AI 자동 생성 콘텐츠

원문 바로가기

GameCraft-Bench: 에이전트가 실제 게임 엔진에서 엔드투엔드(End-to-End)로 플레이 가능한 게임을 제작할 수 있는가?

요약

핵심 포인트

댓글