ARC-AGI-2를 위한 전체론적 추론 경로 판정 기반의 모달리티 주도형 검색

대규모 언어 모델(Large language models)은 추상적 추론 작업에 대해 유창하고 내부적으로 일관된 추론 경로(reasoning traces)를 생성할 수 있지만, 여전히 자신 있게 틀린 답을 내놓을 수 있습니다. 이로 인해 단순히 생성하는 것뿐만 아니라 후보군 중에서 선택하는 것이 핵심 과제가 됩니다. 본 논문에서는 퓨샷(few-shot) 시각 추론 벤치마크인 ARC-AGI-2를 위한 솔버(solver)를 제시하며, 이는 두 가지 원칙을 중심으로 구축되었습니다: (i) 추론 모달리티(reasoning modalities)를 검색 연산자(search operators)로 취급하여 텍스트, 이미지, 코드 채널 전반에 걸쳐 독립적으로 다양한 후보를 생성하는 것, 그리고 (ii) 문맥을 보존하는 전체론적 판정(context-preserving holistic judging)으로, 판정 모델(judge model)이 단일 롱 컨텍스트(long-context) 프롬프트 내에서 모든 후보 추론 경로를 공동으로 비교하는 것입니다. 자기 일관성(self-consistency)이나 다수결 투표(majority voting)와 달리, 이 접근 방식은 모달리티 답변이 틀린 작업에서도 정답인 소수 가설을 안정적으로 복구해냅니다. ARC Prize의 세미 프라이빗(semi-private) 평가 세트에서 이 솔버는 작업당 38.99달러의 비용으로 72.9%를 달성했습니다. 이는 본 논문 작성 시점 기준으로 검증된 리더보드에서 가장 높은 점수이며, 단독으로 사용된 최첨단 모델인 GPT-5.2 Pro(54.2%)와 Gemini 3 Pro(54.0%)를 +18.7%포인트 상회하는 수치입니다. 퍼블릭(public) 평가 세트에서는 작업당 19.69달러의 비용으로 76.1%를 달성했습니다. 본인은 전체 소스 코드를 공개하며, 규정적인 프롬프트 템플릿(prescriptive prompting templates)과 반복적 정제(iterative refinement)가 가설의 다양성을 체계적으로 감소시키고 성능을 저하시킨다는 발견을 포함하여 광범위한 부정적 결과(negative results)를 문서화하였습니다.

Insights

ARC-AGI-2를 위한 전체론적 추론 경로 판정 기반의 모달리티 주도형 검색

요약

핵심 포인트

댓글

Riverside의 Claude MCP 통합 기능이 영상 편집의 새로운 메타(Meta)라고 확신하는 이유

OKX가 오늘 AI 에이전트를 위한 Upwork를 출시했습니다.

F-G-T-W: 타당성 게이트(Feasibility Gate)는 어떻게 탄생했는가

AI 비용 모델링 핸드북: Claude에게 모델링은 맡겼지만, 산술 계산은 절대 맡기지 않았다

Riverside의 Claude MCP 통합 기능이 영상 편집의 새로운 메타(Meta)라고 확신하는 이유

OKX가 오늘 AI 에이전트를 위한 Upwork를 출시했습니다.

F-G-T-W: 타당성 게이트(Feasibility Gate)는 어떻게 탄생했는가

AI 비용 모델링 핸드북: Claude에게 모델링은 맡겼지만, 산술 계산은 절대 맡기지 않았다