arXiv논문2026. 06. 03. 11:31

대규모 언어 모델(LLM)의 추론 구조

요약

LRM의 성능을 단순히 정확도나 토큰 수로 평가하는 한계를 극복하기 위해, 추론 과정을 검증 가능한 추론 그래프로 변환하는 새로운 방법론을 제안합니다. 이를 통해 추론의 위상과 효율성을 정량적으로 분석하고 모델의 실패 모드를 진단할 수 있습니다.

핵심 포인트

추론 과정을 주장과 의존성 기반의 그래프로 구조화
토큰 수와 정확도에 가려진 추론 구조의 차이 식별
추론 효율성(reasoning efficiency) 지표 정의
모델의 실패 모드 진단 및 확장성 비교 도구 제공

대규모 추론 모델(Large reasoning models, LRMs)은 종종 최종 정답 정확도(final-answer accuracy)나 토큰 수(token count)와 같은 지표를 사용하여 평가됩니다. 그러나 이러한 지표에서 동일한 점수를 받더라도 근본적으로 다른 추론 구조(reasoning structures)가 숨겨져 있을 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 논리 퍼즐로 구성된 확장 가능한 LRM 벤치마크와 비구조화된 추적(unstructured traces)을 주장(claims) 및 의존성(dependencies)의 검증 가능한 추론 그래프(reasoning graphs)로 변환하는 파이프라인을 소개합니다. 이를 통해 추론은 그 위상(topology)을 정량적으로 분석할 수 있는 구조화되고 측정 가능한 객체로 변모합니다. 이를 바탕으로, 우리는 모델의 논리적 흐름이 얼마나 집중되어 있는지를 정량화하는 추론 효율성(reasoning efficiency) 지표를 정의합니다. 오픈 소스 추론 모델에 대한 우리의 분석은 구조적 측정 방식이 토큰 수와 정확도가 혼동하는 행동들을 분리해낸다는 것을 보여주며, 이는 실패 모드(failure modes)를 진단하고 퍼즐 난이도에 따라 추론이 어떻게 확장(scale)되는지 비교하는 데 실용적인 도구를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM)의 추론 구조

요약

핵심 포인트

댓글