arXiv논문2026. 05. 07. 12:49

코딩 에이전트를 활용한 ARC-AGI-3 실행 가능한 월드 모델 평가

요약

본 기술 기사는 코딩 에이전트 시스템을 사용하여 ARC-AGI-3 게임에 대한 실현 가능한 월드 모델 평가 결과를 보고합니다. 이 시스템은 이전 관찰을 검증하고, MDL 기반 단순성 편향의 대안으로 추상화하여 계획을 세우는 방식으로 작동합니다. 25개의 공개 게임 테스트 결과, 에이전트는 7개 게임을 완전히 해결했으며, 평균적으로 상대적 인간 행동 효율성(RHAE)은 32.58%를 기록하며 유망한 초기 성능을 보여주었습니다.

핵심 포인트

코딩 에이전트 시스템을 활용하여 ARC-AGI-3 게임에 대한 월드 모델 평가를 수행했습니다.
시스템은 스크립트 컨트롤러, 표준화된 인터페이스 등을 사용하여 게임 특이적 로직 없이 일반적인 접근 방식을 유지합니다.
25개 공개 게임 테스트에서 에이전트는 7개의 게임을 완전히 해결하는 성과를 보였습니다.
평균 상대적 인간 행동 효율성(RHAE)은 32.58%로, ARC-AGI-3의 일반적인 기준선으로 활용될 수 있음을 시사합니다.

우리는 코딩 에이전트 시스템을 초기 평가했습니다. 이 시스템은 에이전트가 실행 가능한 Python 월드 모델을 유지하며, 이전 관찰과 비교하여 검증하고, MDL-like 단순성 편향의 실용적 대안으로 더 간단한 추상화 방향으로 리팩토링한 후, 행동 전에 모델로 계획을 세웁니다. 시스템은 의도적으로 직접적입니다: 스크립트 컨트롤러, 사전 정의된 월드 모델 인터페이스, 검증 프로그램, 및 계획 실행자를 사용하지만, 게임 특이적 로직은 없습니다. 우리는 25 개의 공개 ARC-AGI-3 게임에 대해 결과를 보고했습니다. 각 기록된 플레이스루스는 이전 플레이스루스 특정 파일 또는 대화 상태에 대한 접근 없이 신선한 에이전트 인스턴스를 사용합니다. 대부분의 게임에는 단일 기록된 플레이스루스가 있습니다; 몇몇 게임에서는 실행 간 변동성을 드러내기 위해 여러 개의 독립적인 신선 에이전트 플레이스루스를 보고했습니다. 에이전트는 7 개의 게임을 완전히 해결했으며, 6 개의 게임에서는 상대적 인간 행동 효율성 (RHAE) 이 75% 보다 높았습니다. 평균 게임당 RHAE 는 32.58% 입니다. 시스템은 게임 특이적 코드를 사용하지 않기 때문에, ARC-AGI-3 에게는 게임 일반 기준선으로 사용할 수 있습니다. 사설 검증 세트에서의 성능은 아직 테스트되지 않았습니다. 전반적으로, 결과는 검증자 구동 실행 가능한 월드 모델이 ARC-AGI-3 에이전트에 유망한 접근법임을 초기 증거를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

코딩 에이전트를 활용한 ARC-AGI-3 실행 가능한 월드 모델 평가

요약

핵심 포인트

댓글