arXiv논문2026. 06. 03. 11:04

대규모 언어 모델(LLM)은 자신의 응답에 대해 과도하게 확신한다

요약

지시어 튜닝된 LLM이 베이스 모델보다 캘리브레이션 성능이 떨어지는 원인을 분석한 연구입니다. 채팅 템플릿이 '소유권 편향'을 유발하여 모델이 자신의 답변에 과도한 확신을 갖게 함을 밝히고, 이를 개선하기 위한 추론 시점의 프레이밍 전략을 제안합니다.

핵심 포인트

지시어 튜닝은 모델의 캘리브레이션 성능을 저하시킴
채팅 템플릿이 소유권 편향을 유발하여 과도한 확신을 가중함
모델은 자신의 답변에 대해 최대 26% 더 높은 확신을 보임
추론 시 사용자 입력 프레이밍을 통해 재학습 없이 캘리브레이션 개선 가능

이전 연구들은 지시어 튜닝(Instruction-tuned)된 대규모 언어 모델(LLMs)이 베이스 사전 학습(Base pre-trained) 모델보다 캘리브레이션(Calibration, 교정)이 덜 잘 되어 있음을 보여주었습니다. 그러나 자주 사용되는 채팅 템플릿(Chat template)이 대화형 LLM의 캘리브레이션에 미치는 영향에 대해서는 알려진 바가 거의 없습니다. 본 연구에서는 사후 학습(Post-training) 알고리즘과 채팅 형식(Chat format)의 효과를 분리함으로써 이러한 미스캘리브레이션(Miscalibration, 부정확한 교정)을 유발하는 메커니즘을 조사합니다. 연구 결과, 지시어 튜닝이 근본적으로 캘리브레이션을 해치는 반면, 채팅 템플릿은 "소유권 편향(Ownership bias)"을 통해 이 문제를 악화시킨다는 것을 발견했습니다. 즉, 모델은 사용자가 제공한 동일한 답변보다 자신의 답변에 대해 현저하게 더 높은 확신을 가집니다. 최근의 6개 오픈 웨이트(Open-weight) LLM, 3개의 벤치마크, 3개의 확신 유도(Confidence elicitation) 방법을 통한 광범위한 실험 결과, 모델은 자신의 응답에 대해 최대 26% 더 높은 확신을 부여하는 것으로 나타났습니다. 이러한 통찰을 활용하여, 우리는 간단한 추론 시점(Inference-time) 전략을 제안합니다. 바로 확신을 유도할 때 모델의 답변을 사용자의 입력으로 프레이밍(Framing)하는 것입니다. 이 접근 방식은 재학습 없이도 과도한 확신을 크게 줄이고 캘리브레이션을 최대 26%까지 개선하며, 베이스 모델과 지시어 튜닝 모델 사이의 격차를 좁힙니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM)은 자신의 응답에 대해 과도하게 확신한다

요약

핵심 포인트

댓글