Theoria: 비형식적 추론 상태에 대한 재작성-수용 가능성 검증

AI 시스템의 답변을 언제 신뢰해야 할까요? 형식적 증명 보조 도구(Formal proof assistants)는 확실성을 제공하지만 대부분의 문제 분포에 도달할 수 없습니다. 스칼라 LLM 판정기(scalar LLM judges)는 커버리지를 제공하지만, 사후에 감사할 수 없는 불투명한 점수를 생성하며 다른 LLM과 마찬가지로 일관성 문제(coherence issues)를 겪습니다. 우리는 이 간극을 메우는 검증 아키텍처인 Theoria를 제시합니다. 후보 솔루션은 유형화된 상태 전이(typed state transitions) 시퀀스로 재작성되며, 각 전이는 인용(citation), 계산(computation), 또는 문제에서 주어진 사실(problem-given fact)과 같이 명시적인 정당화(justification)에 의해 승인되며, 모든 전이는 독립적으로 감사 가능합니다. 근본적인 불변량(invariant)은 변화의 완전성(completeness of change)입니다. 연속적인 증명 상태 사이의 모든 차이점은 반드시 설명되어야 하므로, 숨겨진 전제(hidden premises)는 조용히 통과되는 대신 승인되지 않은 변이(unlicensed mutations)로서 드러나게 됩니다. HLE-Verified Gold(185개의 텍스트 전용 전문가 문제)에서 Theoria는 105개에 대해 91.4%의 엄격한 정밀도(strict precision, Wilson 95% CI [84.5%, 95.4%])로 인증을 수행합니다. 모든 인증은 각 단계를 독립적으로 이의 제기할 수 있는 인간이 읽을 수 있는 증명 추적(proof trace)을 생성합니다. 전체론적 LLM 판정기(Holistic LLM judges)는 동일한 커버리지에서 유사한 정밀도를 달성하지만, 다른 문제에서는 실패하여(Jaccard 0.14-0.36), 두 접근 방식은 상호 보완적입니다. 15개 도메인에 걸친 95개의 적대적 오염된 증명(adversarial poisoned proofs)에 대해, 구조화된 판정기(structured judges)는 94.7%를 잡아낸 반면 전체론적 판정(holistic judging)은 83.2%를 잡아냈습니다(p= 0.0017). 전체 11.5 pp의 격차는 숨겨진 전제(90.6% vs. 62.5%, 28 pp 차이)와 조작된 인용(100% vs. 90%)에 집중되어 있으며, 이는 형식적 분석(formal analysis)이 이점을 예측한 오류 클래스들입니다. 산술 및 정리 오용(theorem-misapplication) 오류에서는 이점이 예측되지 않았으며 성능이 동일했습니다. GPQA Diamond(n= 65)에서 인증된 정밀도는 97.1%입니다(Wilson CI [85.1%, 99.5%]).

Insights

Theoria: 비형식적 추론 상태에 대한 재작성-수용 가능성 검증

요약

핵심 포인트

댓글

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화