arXiv논문2026. 06. 19. 10:52

JAMER: 전문 게임 엔진 기반의 프로젝트 수준 코드 프레임워크 데이터셋 및 벤치마크

요약

전문 게임 엔진 기반의 프로젝트 수준 코드 데이터셋인 JamSet과 벤치마크 JamBench를 제안합니다. 게임 잼 프로젝트를 활용해 구축되었으며, 대규모 프로젝트로 갈수록 AI 모델의 성능이 급격히 하락하는 '능력 절벽' 현상을 확인했습니다.

핵심 포인트

전문 게임 엔진 기반의 프로젝트 수준 코드 데이터셋 및 벤치마크 제시
Godot 엔진을 활용한 결정론적 검증 파이프라인 설계
프로젝트 규모 증가에 따른 AI 모델의 급격한 성능 저하(능력 절벽) 발견
코드 에이전트가 구문 정확성은 높이나 아키텍처 설계 능력은 부족함을 시사

현재 AI 기반 게임 개발은 에셋 생성, 게임플레이 설계, 웹 기반 게임 코딩 분야에서 상당한 진전을 이루었으나, 대규모 데이터셋과 결정론적 평가 방법의 부재로 인해 전문 게임 엔진에서의 프로젝트 수준 코드 엔지니어링은 여전히 미개척 분야로 남아 있습니다. 본 논문에서는 전문 게임 엔진을 기반으로 구축된 최초의 프로젝트 수준 게임 코드 프레임워크 데이터셋 및 벤치마크인 JamSet과 JamBench를 제시합니다. 우리의 핵심 통찰은 개발자들이 촉박한 시간 제한 내에 완전한 게임을 제작하는 커뮤니티 이벤트인 게임 잼(Game Jam) 대회가 이 목적에 적합한 수천 개의 오픈 소스 프로젝트를 생성한다는 점입니다. Godot 엔진의 텍스트 기반 형식과 헤드리스 실행 모드(headless execution mode)를 활용하여, 우리는 파일 무결성부터 런타임 동작 수집에 이르는 결정론적 검증 파이프라인을 설계하였으며, 240,000개 이상의 저장소로부터 8,133개의 검증된 프로젝트를 추출했습니다. 이 중 수동으로 검증된 300개의 프로젝트는 JamBench를 구성하며, 나머지는 JamSet을 구성합니다. JamBench는 테마 기반 생성 및 코드 완성 태스크를 정의하며, 컴파일 통과율(compilation pass rates), 구조적 완전성 점수(Structural Completeness Score, SCS), 그리고 행동 정렬 점수(Behavioral Alignment Score, BAS)를 결합한 파이프라인을 통해 평가됩니다. 9개의 최첨단 모델(frontier models)을 평가한 결과, 프로젝트 규모가 커짐에 따라 성능이 급격히 하락하는 능력 절벽(capability cliff) 현상이 나타났으며, 런타임 통과율은 소규모 프로젝트에서의 80.4%에서 대규모 프로젝트에서의 5.7%로 떨어졌습니다(Task2a). 코드 에이전트(Code Agents)는 컴파일 통과율을 개선하지만 런타임 행동 품질에는 이득을 주지 못하며, 이는 병목 현상이 구문적 정확성(syntactic correctness)보다는 아키텍처 설계(architectural design)에 있음을 시사합니다. 실험을 통해 JamSet이 효과적인 학습 데이터임을 입증했습니다. 모든 데이터와 코드는 공개적으로 사용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

JAMER: 전문 게임 엔진 기반의 프로젝트 수준 코드 프레임워크 데이터셋 및 벤치마크

요약

핵심 포인트

댓글