TRACE: LLM CoT 평가를 위한 구성 요소를 통한 Toulmin 기반 추론 평가
요약
LLM의 Chain-of-Thought(CoT) 추론 과정을 평가하기 위한 새로운 지표인 TRACE를 제안합니다. Toulmin의 논증 이론과 메타인지 프레임워크를 결합하여 추론의 구조적 타당성을 검증하며, 기존 정확도 기반 지표보다 뛰어난 성능을 보였습니다.
핵심 포인트
- Toulmin 논증 이론 기반의 추론 구조 평가 지표 TRACE 제안
- CoT 추론 과정과 벤치마크 정확도 간 높은 상관관계(r=0.74) 확인
- 강화학습(RL)의 보상 신호로서 효과적인 성능 입증
- 결과 중심 평가를 넘어 추론 과정의 논리성을 검증하는 보완적 지표
거대 언어 모델 (LLMs)의 개방형 출력을 평가하는 것은 정답 (ground truth)의 부재로 인해 여전히 어려운 과제로 남아 있습니다. 기존의 지표들은 최종 답변의 정확도나 표면적인 통계에 의존하며, 추론 과정 자체는 검토하지 못하고 있습니다. 본 연구에서는 Chain-of-Thought (CoT) 추론 과정을 분석하는 지표인 TRACE (Toulmin-based Reasoning Assessment through Constructive Elements)를 소개합니다. TRACE는 결과만을 판단하는 대신, Toulmin의 논증 이론 (argumentation theory)과 Flavell의 메타인지 프레임워크 (metacognitive framework)를 통합하여 추론 구조를 평가함으로써 논증이 어떻게 구성되는지를 검사합니다. 7개의 추론 모델에 걸친 26.3K개의 QA 샘플을 대상으로 한 실험 결과, 벤치마크 정확도와 강한 상관관계 (r=0.74)를 보였습니다. 또한, TRACE는 강화학습 (reinforcement learning) 보상 신호로서 효과적이며, 정확도만을 사용하는 베이스라인 (baselines)보다 뛰어난 성능을 보였습니다. 이러한 결과들을 종합해 볼 때, 논리적으로 타당한 추론은 더 높은 품질의 답변으로 이어진다는 것을 알 수 있습니다. 따라서 TRACE는 개방형 출력을 평가하기 위한 보완적인 지표 역할을 합니다. 코드는 https://github.com/hyyangkisti/trace 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기