본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 26. 12:53

해결하기 전에 탐색하라: ARC-AGI-3를 위한 인식론적 에이전트(Epistemic Agents)의 속도-깊이 트레이드오프

요약

ARC-AGI-3 벤치마크의 취약성을 분석하고, 지능적 탐색을 수행하는 적응형 인식 추론 에이전트 AERA를 제안합니다. AERA는 속도-깊이 트레이드오프 프레임워크를 통해 행동 효율성과 정보 이득 사이의 최적점을 찾습니다.

핵심 포인트

  • ARC-AGI-3 공개 게임의 상당수가 단순 휴리스틱으로 해결 가능함을 발견
  • 3단계(EXPLORE/VERIFY/PLAN) 구조를 가진 AERA 에이전트 제안
  • Qwen2.5-0.5B 기반으로 무작위 베이스라인 대비 높은 성능 달성
  • 속도-깊이 트레이드오프를 통한 행동 효율성 및 정보 이득 최적화

우리는 25개의 모든 공개 ARC-AGI-3 게임을 체계적으로 조사하였으며, 모든 게임이 지능적이지 않은 전략을 통해서도 도달 가능하다는 것을 발견했습니다: 10개는 단 한 번의 맹목적인 단계(blind step)로, 5개는 한 번의 탐색 동작(probing action) 후에, 1개는 반복적인 ACTION1 입력으로, 1개는 다양한 탐색을 통해, 그리고 8개는 충분한 예산(50-200 단계) 내에서 단일 반복 동작을 통해 도달 가능합니다. 또한 라이브러리 수준의 null-coordinate 취약점(vulnerability)을 통해 18개의 게임을 1단계 만에 우회할 수 있습니다. 이러한 벤치마크 비판은 공개 평가 세트가 지능적인 탐색(intelligent exploration)과 사소한 휴리스틱(trivial heuristics)을 구별할 수 없음을 시사하며, 55개의 비공개 게임 평가만이 유일한 진정한 지능 테스트임을 의미합니다. 이러한 배경 하에, 우리는 AERA(Adaptive Epistemic Reasoning Agent, 적응형 인식 추론 에이전트)를 제시합니다. AERA는 3단계(EXPLORE / VERIFY / PLAN) 에이전트로, Qwen2.5-0.5B를 사용하여 이 25개 게임에서 RHAE=0.2116(25개 중 4개 해결)을 달성한 반면, 무작위(random) 및 탐색 없음(no-explore) 베이스라인은 0.0000의 점수를 기록했습니다. 우리는 속도-깊이 트레이드오프(Speed--Depth trade-off) 프레임워크를 통해 AERA를 공식화합니다: 볼록성 가정(convexity assumption, 부록의 특정 환경 클래스에 대해 증명됨) 하에서, RHAE의 이차 형식(quadratic form)은 행동 효율성(action efficiency)과 정보 이득(information gain) 사이의 파레토 프런티어(Pareto frontier)에서 벗어나는 것에 대한 2차 페널티로 나타납니다. 기여 사항: (i) 현재의 상호작용 추론 벤치마크가 그들이 요구한다고 주장하는 탐색을 측정하는 데 실패함을 보여주는 벤치마크 유효성 분석, (ii) EXPLORE-before-PLAN 프레임워크 및 모델 능력과 탐색 간의 상호작용. 연결된 코드 트랙 항목은 전체 55개 비공개 평가에서 RHAE=0.30을 달성합니다. 코드: CC0.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0