arXiv논문2026. 05. 05. 16:38

AI 추론 측정: 연구자를 위한 가이드

요약

본 가이드는 언어 모델의 추론 능력을 평가하는 연구자들을 위해 작성되었으며, 단순히 최종 답변의 정확도만으로는 충분하지 않다고 강조합니다. 대신, 추론 과정을 '검색과 같은 절차'로 형식화하여 중간 단계의 선택 및 정지 과정을 분석해야 한다고 주장합니다. 따라서 최종 결과뿐 아니라 중간 디코딩 과정이나 외부화된 추론 흔적(traces)을 평가 목표로 삼는 프로세스 기반 평가 방법론으로의 전환이 필요함을 제안합니다.

핵심 포인트

언어 모델의 추론 평가는 단순한 최종 답변 정확도를 넘어선 접근 방식이 필요하다.
추론 과정을 '검색과 같은 절차(search-like procedure)'로 형식화하여 중간 단계의 선택 및 정지 과정을 분석해야 한다.
단일 순차 전파 아키텍처는 가변 깊이 계산을 구현하는 데 구조적 한계가 있다.
평가는 최종 결과뿐 아니라 '중간 디코딩' 또는 '외부화된 추론 흔적(traces)'의 충실성 및 유효성을 핵심 목표로 삼아야 한다.

본 논문에서는 언어 모델의 추론 (reasoning) 을 평가하는 연구자들을 위해 가이드를 제시하며, 추론은 최종 답변 정확도뿐만 아니라 적응적 다단계 검색의 증거를 통해 평가되어야 함을 주장합니다. 평가 지향적 정의 (evaluation-oriented definition) 하에서 추론은 입력에 의존하는 조건에 따라 중간 단계를 선택하고 정지해야 하며, 이를 우리는 검색과 같은 절차 (search-like procedure) 로 형식화합니다. 확장 가능한 아키텍처에서의 단일 순차 전파 (single forward passes) 는 이러한 가변 깊이의 계산 (variable-depth computation) 을 실현하는 구조적 한계가 있음을 보여줌으로써, 중간 디코딩 (intermediate decoding) 과 외부화된 추론 트레이스 (externalized reasoning traces) 를 적절한 평가 인터페이스로 제안합니다. 본 논문의 핵심 주장은 최종 답변 정확도만으로는 추론을 측정할 수 없으며, 이는 최첨단 모델의 개별 해답을 생성하는 근본적인 과정을 진단하거나 디버깅할 수 있는 능력을 거의 제공하지 않기 때문입니다. 따라서 우리는 중간 추론 트레이스의 충실성 (faithfulness) 과 유효성 (validity) 을 1 차 평가 목표 (first-class evaluation targets) 로 삼는 프로세스 기반 평가 (process-based evaluation) 로의 전환을 주장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AI 추론 측정: 연구자를 위한 가이드

요약

핵심 포인트

댓글