arXiv논문2026. 06. 02. 10:14

AXIOM: 검증 가능한 수학적 추론을 위한 신뢰 우선 신경-기호 실행 아키텍처

요약

AXIOM은 수학적 추론의 신뢰성을 높이기 위해 언어 모델을 정형화 도구로 활용하는 신경-기호(neuro-symbolic) 아키텍처입니다. 비정형 텍스트를 결정론적 컴퓨터 대수 시스템(CAS)용 스키마로 변환하여 정답을 도출하며, 높은 정확도와 낮은 지연 시간을 동시에 달성했습니다.

핵심 포인트

언어 모델을 정형화 도구로 사용하여 CAS 파이프라인과 연동
MATH 벤치마크에서 94.36%의 높은 누적 정확도 달성
기권(abstain)을 일급 출력으로 처리하여 시스템 확장성 확보
규칙 전용 핸들러에서 1ms 수준의 매우 낮은 지연 시간 기록

우리는 자연어 수학적 추론을 위한 신뢰 우선 신경-기호 (neuro-symbolic) 실행 아키텍처인 AXIOM을 제시합니다. AXIOM에서 언어 모델 (language model)은 엄격하게 정형화 도구 (canonicalizer)로서 기능합니다. 즉, 비정형 문제 텍스트를 결정론적 컴퓨터 대수 시스템 (Computer-Algebra-System, CAS) 파이프라인이 소비할 수 있는 좁은 스키마 (schema)로 재작성하며, 이 파이프라인은 정답을 도출 및 검증하거나 일급 출력 (first-class output)으로서 기권 (abstain)을 수행합니다. 라우팅은 문제 형태 정규 표현식 (problem-shape regex), 스키마 특정 프롬프트 (schema-specific prompt), 그리고 폐쇄형 CAS 핸들러 (closed-form CAS handler) 사이의 1:1:1 정렬을 따르며, 3,100개 이상의 이러한 경로가 배포되었고 250회 이상의 연속적인 배포 커밋(ship commits) 동안 LOST_CORRECT 회귀(regression)가 0건을 기록했습니다. 우리는 4개의 MATH 카테고리에 대한 실증적 결과를 보고하며, 파싱 가능한 데이터(2,747개 전체 벤치마크 레코드 중 확신이 있는 오답이 0개)에 대해 100.00%의 신뢰도에서 94.36%(2,592/2,747)의 누적 정확도를 달성했습니다. 네 가지 도메인 모두 도메인별 신뢰도가 100.0%인 상태에서 도메인별 70/90/70 하한선을 상회했으며, lm-eval 산술 20,000개 레코드 벤치마크의 88% 레코드에 대해 규칙 전용 핸들러 (rule-only handlers)에서 중앙값 지연 시간(median latency) 1ms를 기록했습니다. 이 아키텍처는 공개 배포를 통해 약 30,000개의 프로덕션 쿼리에 서비스를 제공했습니다. 우리가 강조하는 기여는 최종 정확도 수치가 아니라 이 아키텍처가 구축하는 전향적 역학 (forward dynamic)입니다. 새로운 작업이 레지스트리 (registry)를 퇴보시키지 않고 구성되므로, 프로덕션에서 기록된 모든 기권 (abstain)은 한 번의 배포 주기 후에 정답 후보가 됩니다. 이러한 속성 뒤에 있는 운영 규율 — 수학 템플릿 버케팅 (math-template bucketing), 회귀 오라클 (regression oracle)로서의 LOST_CORRECT 스캔, 파싱 가능 우선 온보딩 (parseable-first onboarding), 그리고 일급 출력으로서의 기권 (abstain as first-class output) — 은 수학을 넘어 신뢰할 수 있는 신경-기호 시스템을 위한 전이 가능한 프레임워크를 구성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AXIOM: 검증 가능한 수학적 추론을 위한 신뢰 우선 신경-기호 실행 아키텍처

요약

핵심 포인트

댓글