Theoria: 비형식적 추론 상태에 대한 재작성-수용 가능성 검증
요약
Theoria는 LLM의 비형식적 추론 과정을 유형화된 상태 전이 시퀀스로 재작성하여 검증하는 새로운 아키텍처를 제안합니다. 각 전이 단계에 명시적인 정당화를 부여함으로써 숨겨진 전제나 오류를 독립적으로 감사할 수 있게 합니다. 벤치마크 결과, 기존의 전체론적 LLM 판정기보다 높은 정밀도와 오염된 증명 탐지 능력을 보여주었습니다.
핵심 포인트
- 추론 과정을 명시적 정당화가 포함된 상태 전이로 재작성하여 검증 가능성 확보
- 숨겨진 전제 및 조작된 인용 탐지에서 기존 방식 대비 우수한 성능 입증
- HLE-Verified Gold 및 GPQA Diamond 벤치마크에서 높은 정밀도 달성
- 인간이 읽을 수 있는 증명 추적(proof trace)을 생성하여 독립적 감사 지원
AI 시스템의 답변을 언제 신뢰해야 할까요? 형식적 증명 보조 도구(Formal proof assistants)는 확실성을 제공하지만 대부분의 문제 분포에 도달할 수 없습니다. 스칼라 LLM 판정기(scalar LLM judges)는 커버리지를 제공하지만, 사후에 감사할 수 없는 불투명한 점수를 생성하며 다른 LLM과 마찬가지로 일관성 문제(coherence issues)를 겪습니다. 우리는 이 간극을 메우는 검증 아키텍처인 Theoria를 제시합니다. 후보 솔루션은 유형화된 상태 전이(typed state transitions) 시퀀스로 재작성되며, 각 전이는 인용(citation), 계산(computation), 또는 문제에서 주어진 사실(problem-given fact)과 같이 명시적인 정당화(justification)에 의해 승인되며, 모든 전이는 독립적으로 감사 가능합니다. 근본적인 불변량(invariant)은 변화의 완전성(completeness of change)입니다. 연속적인 증명 상태 사이의 모든 차이점은 반드시 설명되어야 하므로, 숨겨진 전제(hidden premises)는 조용히 통과되는 대신 승인되지 않은 변이(unlicensed mutations)로서 드러나게 됩니다. HLE-Verified Gold(185개의 텍스트 전용 전문가 문제)에서 Theoria는 105개에 대해 91.4%의 엄격한 정밀도(strict precision, Wilson 95% CI [84.5%, 95.4%])로 인증을 수행합니다. 모든 인증은 각 단계를 독립적으로 이의 제기할 수 있는 인간이 읽을 수 있는 증명 추적(proof trace)을 생성합니다. 전체론적 LLM 판정기(Holistic LLM judges)는 동일한 커버리지에서 유사한 정밀도를 달성하지만, 다른 문제에서는 실패하여(Jaccard 0.14-0.36), 두 접근 방식은 상호 보완적입니다. 15개 도메인에 걸친 95개의 적대적 오염된 증명(adversarial poisoned proofs)에 대해, 구조화된 판정기(structured judges)는 94.7%를 잡아낸 반면 전체론적 판정(holistic judging)은 83.2%를 잡아냈습니다(p= 0.0017). 전체 11.5 pp의 격차는 숨겨진 전제(90.6% vs. 62.5%, 28 pp 차이)와 조작된 인용(100% vs. 90%)에 집중되어 있으며, 이는 형식적 분석(formal analysis)이 이점을 예측한 오류 클래스들입니다. 산술 및 정리 오용(theorem-misapplication) 오류에서는 이점이 예측되지 않았으며 성능이 동일했습니다. GPQA Diamond(n= 65)에서 인증된 정밀도는 97.1%입니다(Wilson CI [85.1%, 99.5%]).
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기