arXiv논문2026. 05. 12. 01:09

자신감 너머: LLM의 성능 예측을 위한 자기 평가 재고찰

요약

본 기사는 대규모 언어 모델(LLMs)의 신뢰성 평가에 대한 새로운 접근 방식을 제안합니다. 기존의 확률적 정확도 추정치나 단순한 '자신감' 지표가 LLM의 실제 성능을 예측하는 데 한계가 있음을 지적하며, 인간 심리학의 인지 평가 이론(cognitive appraisal theory)을 차용했습니다. 이에 따라 자신감 외 6가지 추가적인 평가 기반 차원을 도입하여 모델 자기 평가를 다차원적으로 분석하고, 이를 통해 LLM 실패를 더 효과적으로 예측할 수 있음을 입증합니다.

핵심 포인트

LLM 신뢰성 평가는 단순한 확률적 정확도 추정치를 넘어선 진화가 필요하다.
기존의 '자신감' 지표는 LLM 성능을 예측하는 데 있어 일관성이 없고 과도하게 낙관적일 수 있다.
인간 심리학의 인지 평가 이론(cognitive appraisal theory)을 활용하여 모델 자기 평가를 다차원적으로 분해할 것을 제안한다.
자신감 외 6가지 추가적인 평가 기반 차원을 도입하여 LLM 실패 예측에 유용성을 검증했다.

대규모 언어 모델(LLMs)은 신뢰할 수 있는 자기 평가가 필수적인 환경에서 점점 더 많이 사용되고 있습니다. 모델의 신뢰성을 평가하는 방식은 확률적 정확도 추정치를 사용하는 것에서, 최근에는 구두로 표현된 자신감을 이끌어내는 것으로 진화해 왔습니다. 그러나 자신감(Confidence)은 모델의 정확도를 예측하는 데 있어 일관성이 없고 과도하게 낙관적인 지표임이 밝혀졌습니다. 인간 심리학의 틀인 인지 평가 이론(cognitive appraisal theory)을 활용하여, 자기 평가를 여러 구성 요소로 분해하는 관점을 바탕으로, 우리는 모델 자기 평가에 대한 다차원적 관점을 제안합니다. 자신감 외에도 6가지 평가 기반 차원을 이끌어내고, 이를 12개의 LLM과 8개 도메아리에 걸친 38개 작업을 통해 모델 실패를 예측하는 유용성을 평가했습니다. W

AI 자동 생성 콘텐츠

원문 바로가기

자신감 너머: LLM의 성능 예측을 위한 자기 평가 재고찰

요약

핵심 포인트

댓글