지속적인 게임 생성을 위한 GUI 에이전트 (GUI Agents for Continual Game Generation)
요약
기존의 일회성 게임 생성 방식의 한계를 극복하기 위해 GUI 에이전트를 활용한 지속적인 게임 생성 프레임워크를 제안합니다. PlaytestArena 평가 환경과 Play2Code 루프를 통해 코딩과 플레이 사이의 상호작용을 구현하여 게임 생성의 성공률을 크게 높였습니다.
핵심 포인트
- GUI 에이전트를 객관적 평가자 및 주관적 플레이테스터로 활용
- 새로운 평가 환경인 PlaytestArena 도입
- Play2Code를 통해 단일 패스 대비 37.1% 높은 통과율 달성
- 게임 플레이테스팅이 상호작용형 코드 생성의 핵심 테스트베드임을 입증
게임을 생성하는 것은 실제로 플레이 가능한 게임을 만드는 것과는 다릅니다. 코드 생성 (Code Generation) 기술의 발전에도 불구하고, 기존 방식들은 게임 생성을 프롬프트에서 결과물로 이어지는 일회성 번역 (One-shot Translation)으로 취급하며, 이로 인해 상호작용 수준의 실패를 감지하지 못하는 문제를 남깁니다. 우리는 게임 생성을 평가하고 개선하기 위해서는 플레이어가 필요하다고 주장하며, 이 과정에서 그래픽 사용자 인터페이스 (GUI) 에이전트의 두 가지 역할을 연구합니다: (1) 객관적 평가자 (Objective Evaluator)로서, 우리는 8개 장르에 걸쳐 200개의 브라우저 기반 게임 생성 작업과 예상되는 플레이 행동 루브릭 (Rubrics)을 결합한 새로운 평가 환경인 PlaytestArena를 도입합니다. 여기서 GUI 에이전트는 각 빌드를 브라우저에서 로드하고 직접 플레이하며 판정합니다. (2) 주관적 플레이테스터 (Subjective Playtester)로서, 우리는 게임 에이전트와 GUI 에이전트가 공유 메모리 (Shared Memory)를 통해 지속적인 루프 내에서 작동하여, 게임 생성을 코딩과 플레이 사이의 대화로 전환하는 Play2Code를 제안합니다. 실험 결과, 최첨단 모델 (Frontier Models)조차 플레이 가능한 게임을 직접 생성하는 데 어려움을 겪는 반면, Play2Code는 66.8%의 루브릭 통과율 (Pass-rate)을 달성하였으며, 이는 단일 패스 (Single-pass) 및 에이전트 기반 코딩 (Agentic-coding) 베이스라인보다 각각 37.1포인트와 14.6포인트 향상된 수치입니다. 추가 분석에 따르면, GUI 플레이테스터의 피드백은 인간의 보고서보다 추적 가능성이 높으면서도, 인간 테스터를 연상시키는 특이성 (Idiosyncratic)을 지니고 있어, 게임 플레이테스팅이 상호작용형 코드 생성 (Interactive Code Generation)을 위한 중요한 테스트베드임을 입증합니다. 프로젝트 웹사이트는 https://continual-game-generation.vercel.app/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기