ARC-AGI-2를 위한 전체론적 추론 경로 판정 기반의 모달리티 주도형 검색
요약
ARC-AGI-2 벤치마크를 위해 텍스트, 이미지, 코드 등 다양한 모달리티를 검색 연산자로 활용하는 새로운 솔버를 제안합니다. 전체론적 판정 방식을 통해 후보 추론 경로를 비교함으로써 기존 모델보다 높은 추론 성능을 달성했습니다.
핵심 포인트
- 다양한 추론 모달리티를 검색 연산자로 활용하여 후보 생성
- 단일 롱 컨텍스트 내에서 후보 경로를 공동 비교하는 전체론적 판정 도입
- ARC Prize 세미 프라이빗 세트에서 72.9%의 최고 점수 달성
- GPT-5.2 Pro 및 Gemini 3 Pro 대비 압도적인 성능 우위 증명
- 프롬프트 템플릿과 반복적 정제가 성능을 저하시킬 수 있음을 발견
대규모 언어 모델(Large language models)은 추상적 추론 작업에 대해 유창하고 내부적으로 일관된 추론 경로(reasoning traces)를 생성할 수 있지만, 여전히 자신 있게 틀린 답을 내놓을 수 있습니다. 이로 인해 단순히 생성하는 것뿐만 아니라 후보군 중에서 선택하는 것이 핵심 과제가 됩니다. 본 논문에서는 퓨샷(few-shot) 시각 추론 벤치마크인 ARC-AGI-2를 위한 솔버(solver)를 제시하며, 이는 두 가지 원칙을 중심으로 구축되었습니다: (i) 추론 모달리티(reasoning modalities)를 검색 연산자(search operators)로 취급하여 텍스트, 이미지, 코드 채널 전반에 걸쳐 독립적으로 다양한 후보를 생성하는 것, 그리고 (ii) 문맥을 보존하는 전체론적 판정(context-preserving holistic judging)으로, 판정 모델(judge model)이 단일 롱 컨텍스트(long-context) 프롬프트 내에서 모든 후보 추론 경로를 공동으로 비교하는 것입니다. 자기 일관성(self-consistency)이나 다수결 투표(majority voting)와 달리, 이 접근 방식은 모달리티 답변이 틀린 작업에서도 정답인 소수 가설을 안정적으로 복구해냅니다. ARC Prize의 세미 프라이빗(semi-private) 평가 세트에서 이 솔버는 작업당 38.99달러의 비용으로 72.9%를 달성했습니다. 이는 본 논문 작성 시점 기준으로 검증된 리더보드에서 가장 높은 점수이며, 단독으로 사용된 최첨단 모델인 GPT-5.2 Pro(54.2%)와 Gemini 3 Pro(54.0%)를 +18.7%포인트 상회하는 수치입니다. 퍼블릭(public) 평가 세트에서는 작업당 19.69달러의 비용으로 76.1%를 달성했습니다. 본인은 전체 소스 코드를 공개하며, 규정적인 프롬프트 템플릿(prescriptive prompting templates)과 반복적 정제(iterative refinement)가 가설의 다양성을 체계적으로 감소시키고 성능을 저하시킨다는 발견을 포함하여 광범위한 부정적 결과(negative results)를 문서화하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기