본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 05. 16:38

AI 추론 측정: 연구자를 위한 가이드

요약

본 가이드는 언어 모델의 추론 능력을 평가하는 연구자들을 위해 작성되었으며, 단순히 최종 답변의 정확도만으로는 충분하지 않다고 강조합니다. 대신, 추론 과정을 '검색과 같은 절차'로 형식화하여 중간 단계의 선택 및 정지 과정을 분석해야 한다고 주장합니다. 따라서 최종 결과뿐 아니라 중간 디코딩 과정이나 외부화된 추론 흔적(traces)을 평가 목표로 삼는 프로세스 기반 평가 방법론으로의 전환이 필요함을 제안합니다.

핵심 포인트

  • 언어 모델의 추론 평가는 단순한 최종 답변 정확도를 넘어선 접근 방식이 필요하다.
  • 추론 과정을 '검색과 같은 절차(search-like procedure)'로 형식화하여 중간 단계의 선택 및 정지 과정을 분석해야 한다.
  • 단일 순차 전파 아키텍처는 가변 깊이 계산을 구현하는 데 구조적 한계가 있다.
  • 평가는 최종 결과뿐 아니라 '중간 디코딩' 또는 '외부화된 추론 흔적(traces)'의 충실성 및 유효성을 핵심 목표로 삼아야 한다.

본 논문에서는 언어 모델의 추론 (reasoning) 을 평가하는 연구자들을 위해 가이드를 제시하며, 추론은 최종 답변 정확도뿐만 아니라 적응적 다단계 검색의 증거를 통해 평가되어야 함을 주장합니다. 평가 지향적 정의 (evaluation-oriented definition) 하에서 추론은 입력에 의존하는 조건에 따라 중간 단계를 선택하고 정지해야 하며, 이를 우리는 검색과 같은 절차 (search-like procedure) 로 형식화합니다. 확장 가능한 아키텍처에서의 단일 순차 전파 (single forward passes) 는 이러한 가변 깊이의 계산 (variable-depth computation) 을 실현하는 구조적 한계가 있음을 보여줌으로써, 중간 디코딩 (intermediate decoding) 과 외부화된 추론 트레이스 (externalized reasoning traces) 를 적절한 평가 인터페이스로 제안합니다. 본 논문의 핵심 주장은 최종 답변 정확도만으로는 추론을 측정할 수 없으며, 이는 최첨단 모델의 개별 해답을 생성하는 근본적인 과정을 진단하거나 디버깅할 수 있는 능력을 거의 제공하지 않기 때문입니다. 따라서 우리는 중간 추론 트레이스의 충실성 (faithfulness) 과 유효성 (validity) 을 1 차 평가 목표 (first-class evaluation targets) 로 삼는 프로세스 기반 평가 (process-based evaluation) 로의 전환을 주장합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0