본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 12:49

코딩 에이전트를 활용한 ARC-AGI-3 실행 가능한 월드 모델 평가

요약

본 기술 기사는 코딩 에이전트 시스템을 사용하여 ARC-AGI-3 게임에 대한 실현 가능한 월드 모델 평가 결과를 보고합니다. 이 시스템은 이전 관찰을 검증하고, MDL 기반 단순성 편향의 대안으로 추상화하여 계획을 세우는 방식으로 작동합니다. 25개의 공개 게임 테스트 결과, 에이전트는 7개 게임을 완전히 해결했으며, 평균적으로 상대적 인간 행동 효율성(RHAE)은 32.58%를 기록하며 유망한 초기 성능을 보여주었습니다.

핵심 포인트

  • 코딩 에이전트 시스템을 활용하여 ARC-AGI-3 게임에 대한 월드 모델 평가를 수행했습니다.
  • 시스템은 스크립트 컨트롤러, 표준화된 인터페이스 등을 사용하여 게임 특이적 로직 없이 일반적인 접근 방식을 유지합니다.
  • 25개 공개 게임 테스트에서 에이전트는 7개의 게임을 완전히 해결하는 성과를 보였습니다.
  • 평균 상대적 인간 행동 효율성(RHAE)은 32.58%로, ARC-AGI-3의 일반적인 기준선으로 활용될 수 있음을 시사합니다.

우리는 코딩 에이전트 시스템을 초기 평가했습니다. 이 시스템은 에이전트가 실행 가능한 Python 월드 모델을 유지하며, 이전 관찰과 비교하여 검증하고, MDL-like 단순성 편향의 실용적 대안으로 더 간단한 추상화 방향으로 리팩토링한 후, 행동 전에 모델로 계획을 세웁니다. 시스템은 의도적으로 직접적입니다: 스크립트 컨트롤러, 사전 정의된 월드 모델 인터페이스, 검증 프로그램, 및 계획 실행자를 사용하지만, 게임 특이적 로직은 없습니다. 우리는 25 개의 공개 ARC-AGI-3 게임에 대해 결과를 보고했습니다. 각 기록된 플레이스루스는 이전 플레이스루스 특정 파일 또는 대화 상태에 대한 접근 없이 신선한 에이전트 인스턴스를 사용합니다. 대부분의 게임에는 단일 기록된 플레이스루스가 있습니다; 몇몇 게임에서는 실행 간 변동성을 드러내기 위해 여러 개의 독립적인 신선 에이전트 플레이스루스를 보고했습니다. 에이전트는 7 개의 게임을 완전히 해결했으며, 6 개의 게임에서는 상대적 인간 행동 효율성 (RHAE) 이 75% 보다 높았습니다. 평균 게임당 RHAE 는 32.58% 입니다. 시스템은 게임 특이적 코드를 사용하지 않기 때문에, ARC-AGI-3 에게는 게임 일반 기준선으로 사용할 수 있습니다. 사설 검증 세트에서의 성능은 아직 테스트되지 않았습니다. 전반적으로, 결과는 검증자 구동 실행 가능한 월드 모델이 ARC-AGI-3 에이전트에 유망한 접근법임을 초기 증거를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0