메타인지 프로브(The Metacognitive Probe): LLM을 위한 5가지 행동 교정 진단
요약
메타인지 프로브(The Metacognitive Probe)는 대규모 언어 모델(LLM)의 신뢰도 행동을 다섯 가지 구체적인 차원(신뢰도 보정, 인식적 경계심 등)으로 분석하는 진단 도구입니다. 이 도구는 LLM이 자신의 지식 한계를 인지하고 추론 과정을 검증하는 능력을 평가하며, N=8개의 최첨단 모델과 69명의 인간을 대상으로 광범위하게 테스트되었습니다.
핵심 포인트
- 메타인지 프로브는 LLM의 신뢰도 행동을 다섯 가지 독립적인 차원으로 분해하여 진단합니다 (T1-CC, T2-EV, T3-KB, T4-CR, T5-RCV).
- 이 도구는 단순히 성능을 측정하는 것을 넘어, 모델이 자신의 지식 한계와 추론 과정을 얼마나 잘 인지하고 보정하는지를 평가합니다.
- 평가는 최첨단 LLM 8개와 인간 참가자 69명을 대상으로 진행되어 광범위한 비교 분석이 가능합니다.
- 도구의 기반은 기존 메타인지 이론(Flavell, Nelson & Narens)에서 영감을 받았으나, 관찰 가능한 신뢰도-정확성 정렬에 초점을 맞추고 있습니다.
메타인지 프로브(The Metacognitive Probe)는 LLM의 신뢰도 행동을 다섯 가지 행동적으로 구별되는 차원, 즉 신뢰도 보정(confidence calibration, T1-CC), 인식적 경계심(epistemic vigilance, T2-EV), 지식 경계(knowledge boundary, T3-KB), 보정 범위(calibration range, T4-CR), 그리고 추론 사슬 검증(reasoning-chain validation, T5-RCV)으로 분해하는 탐색적 5가지 과제, 15 슬롯 진단 도구입니다. 이 도구는 N=8개의 최첨단 모델과 N=69명의 인간을 대상으로 평가되었습니다. 이 기기는 Flavell (1979)과 Nelson 및 Narens (1990)에 의해 동기 부여되었지만, 관찰 가능한 신뢰도-정확성 정렬(confidence-correctness alignment)을 기반으로 작동하며, 검증된 종간 메타인지 척도는 아니며, 사전에 지정된 인간 발달 가설은 기각되었습니다. Co
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기