
LLM의 할루시네이션(Hallucination)은 줄었는가? 【후편: Reasoning Model로 인해 늘어난 것 · 평가 설계의 근본 문제】
요약
Reasoning Model의 성능 향상이 오히려 특정 벤치마크에서 할루시네이션을 증가시키는 역설적 현상을 분석합니다. 추론 체인이 길어짐에 따라 오류가 더 길고 설득력 있게 생성되는 질적 변화와 그 원인을 다룹니다.
핵심 포인트
- Reasoning Model은 수학/논리 성능은 높으나 사실 확인 태스크에서는 할루시네이션이 증가할 수 있음
- OpenAI o3, o4-mini 모델에서 특정 벤치마크 기준 할루시네이션 비율 상승 보고
- 사후 학습(Post-training) 파이프라인과 불확실성 미스얼라인먼트가 주요 원인
- 추론 체인이 길어질수록 '길고 일관된 오류'를 생성하는 질적 변화 발생
- 멀티모달 모델에서도 과도한 추론이 이미지 정보보다 언어적 사전 지식에 의존하게 만듦
서론 (후편)
전편에서는 RAG나 CoVe 등의 대책을 통해 「지식의 공백에서 기인하는 할루시네이션 (Hallucination)」은 개선된 반면, Reversal Curse나 Sycophancy와 같은 「구조적인 문제」는 거의 남아 있다는 점을 정리했다.
후편에서는 한 걸음 더 나아가, **「똑똑해질수록 할루시네이션이 늘어나는 케이스가 있다」**는 역설을 다룬다.
그리고 그 근본에 무엇이 있는지, 평가 설계의 문제로서 정리한다.
③ 오히려 두드러지게 된 것: Reasoning Model의 역설
「생각하는 AI」로 인해 사실 오인이 늘어났다
2024년 이후, 「Reasoning Model (추론 모델)」이라 불리는, 답변 전에 사고 단계(thinking steps)를 거치게 하는 모델이 주류가 되었다. 수학 · 코드 · 논리 문제에서의 성능 향상은 명확하다.
하지만 사실 확인(fact-checking) 태스크에서는 오히려 악화되고 있는 데이터가 나타났다.
OpenAI의 o3 · o4-mini system card에서는 PersonQA에서의 hallucination rate가 다음과 같이 보고되어 있다.
| 모델 | PersonQA hallucination rate |
|---|---|
| o1 | 16% |
| ... | |
| OpenAI, o3 and o4-mini System Card, 2025 |
o3는 o1의 2배 이상, o4-mini는 3배 가까운 hallucination rate를 보인다. 수학 능력은 명확히 올라갔는데, 사실 오인의 비율은 늘어나고 있다.
중요한 주의점으로서, 이것은 PersonQA · SimpleQA라는 특정 벤치마크(Benchmark)에서의 결과다. 「모든 용도에서 o3/o4-mini가 나쁘다」는 이야기가 아니다. 다만, 「능력이 올라가면 항상 사실 오인이 줄어든다」고는 말할 수 없다는 점은 이 데이터로부터 명확히 알 수 있다.
왜 「생각할수록」 늘어나는가
원인의 한 축으로서, Yao et al.은 Reasoning Model의 할루시네이션 경향은 일률적이지 않으며, post-training (사후 학습) 파이프라인에 의존한다고 보고하고 있다.
Yao, Z. et al., Are Reasoning Models More Prone to Hallucination?, arXiv:2505.23646, 2025
특히 RL-only(강화학습 전용)나 SFT-only (지도 미세 조정 전용) / distillation (증류)형 모델에서는, 불확실성과 사실 정확성의 미스얼라인먼트(misalignment)가 할루시네이션과 관련될 가능성이 제시되었다.
OpenAI의 System Card에서도 o3는 「더 많은 주장을 한다」ため 옳은 주장도 늘어나는 한편, 부정확한 주장도 늘어난다고 설명되어 있으며, 특정 조건하에서는 할루시네이션의 증가 속도가 정답의 증가 속도를 상회하는 케이스가 발생한다.
전편에서 CoT(Chain of Thought)는 「추론 보조이며 사실성 보증이 아니다」라고 썼지만, Reasoning Model은 그 CoT를 극단적으로 스케일링(scaling)한 것이다. 추론 체인이 길어지면 「언뜻 보기에 정합성이 있는 오류」를 길고 설득력 있게 생성해 버릴 수 있다.
「짧은 틀림」이 「길고 일관된 틀림」으로 변한다 —— 이것이 Reasoning Model에서의 할루시네이션의 질적인 변화다.
멀티모달 모델에서의 「과도한 생각」 현상
멀티모달 모델 (텍스트와 이미지를 모두 다루는 모델)에서도 유사한 역설이 보고되고 있다.
Liu, C. et al., More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models, arXiv:2505.21523, 2025
Liu et al.은 멀티모달 추론 모델에서는 추론 체인이 길어질수록 이미지에 기반한 정보에서 멀어져, 언어적인 사전 지식에 의존하기 쉬워진다고 보고하고 있다. 즉 「이미지를 보고 생각하는」 것이 아니라, 「언어적인 패턴으로 생각하는」 상태가 된다.
해당 논문의 실험에서는 추론의 길이와 퍼포먼스(performance)의 관계가 역 U자형을 띠는 경향도 보고되었다. 일정 길이까지는 정밀도가 올라가지만, 그것을 넘어서면 떨어진다. 「길게 생각하면 생각할수록 좋다」는 단순한 이야기가 아니다.
④ 근본 문제: 정답률만을 평가하면, 추측이 보상된다
지금까지 정리한 이야기의 근저에는 하나의 질문이 있다.
왜 모델은 「모른다」고 말하지 않는가.
평가 지표가 인센티브를 만든다
OpenAI, Why language models hallucinate, 2025
OpenAI의 해설 기사가 지적하는 것은, 표준적인 훈련 및 평가 절차가 "불확실성을 인정하는 것"보다 "추측해서 맞히려고 하는 것"에 보상을 주기 쉬운 구조적인 문제다.
정확도 (Accuracy)를 주요 평가 지표로 삼으면, "모르기 때문에 대답하지 않는 것"보다 "어쨌든 무언가를 대답해서 맞히려고 하는 것"이 점수가 올라간다. 불확실할 때 기권하는 선택지가 평가되지 않는 환경에서는, 모델은 자연스럽게 "추측하는" 방향으로 최적화된다.
"Evaluating large language models for accuracy incentivizes hallucinations", Nature, 2026
Nature에 게재된 논문은 여기서 더 나아가, accuracy 중심의 리더보드(Leaderboard)가 "불확실성을 인정하기보다 추측하는 행동"을 조직적으로 보상할 수 있음을 논하고 있다. 평가 지표의 설계 자체가 할루시네이션 (Hallucination)의 인센티브가 되고 있는 것이다.
HLE 리더보드의 데이터를 보면, calibration error (자신감과 정확성의 괴리)는 30~90%로 폭넓으며, 특히 소형 모델이나 구세대 모델에서는 70%를 넘는 경우도 많다.
즉, "자신 있게 대답하고 있을 때"조차도 큰 괴리가 있을 수 있다.
"기권할 수 있는가"가 평가의 새로운 축이 된다
이 문제에 대한 대처로 제안되고 있는 것이, 평가 지표에 "불확실성의 표명", "기권 (I don't know)"을 포함하는 설계다.
SimpleQA를 예로 들면, abstention (대답하지 않는 선택)을 평가 지표에 포함하면 모델의 행동이 변한다. 불확실할 때 "모르겠다"라고 말할 수 있는 모델은, 확실할 때 정확하게 대답할 수 있는 비율도 높은 경향이 있다.
OpenAI의 Model Spec에 따르면:
"불확실한 정보를 자신 있게 제공하는 것보다, 불확실성을 나타내거나 확인을 요청하는 것이 더 좋다"
이 방침은 "설계 사상"으로서 기술되어 있지만, 그것이 실제 평가 지표 및 벤치마크 (Benchmark) 설계에 반영될지가 향후의 핵심이 될 것이다.
2026년 현재 엔지니어링에 주는 시사점
지금까지의 논의를 바탕으로 하면, LLM을 사용한 시스템을 만들 때의 스탠스가 보인다.
모델의 "자신감"을 그대로 신뢰하지 말 것
Reasoning Model은 특히 "길고 일관성 있는 답변"을 내놓을 때가 있다. 하지만 그 일관성은 내부의 논리적 일관성일 뿐, 외부 사실과의 일치성을 보장하지 않는다. 자신만만한 긴 답변이 사실 확인 태스크에서는 가장 위험한 케이스가 될 수 있다.
"기권할 수 있는" 설계를 넣을 것
중요도가 높은 태스크에서는 모델이 "모르는 경우에는 모른다고 말하도록" 명시적으로 유도하는 프롬프트 (Prompt) 설계가 유효하다. 또한, 출력의 신뢰도에 따라 인간의 체크를 거치도록 하는 설계도 현실적인 선택지가 된다.
사고 길이 (Thinking Token)의 컨트롤을 검토할 것
Reasoning Model에서의 "과도한 생각" 현상을 고려하면, 태스크의 성격에 따라 추론의 길이를 제어하는 설계가 향후 중요해질 것이다. 수학·코드 태스크에서는 긴 추론이 효과적이지만, 사실 확인 태스크에서는 역효과를 낼 수 있다.
평가 지표를 "정확도만"으로 하지 말 것
시스템 평가에서 정확도만을 지표로 삼으면 "추측해서 맞히려는" 행동을 강화한다. 불확실성의 표명, 근거 제시, 기권율을 평가에 포함함으로써 더욱 신뢰성 높은 시스템으로 나아갈 수 있다.
요약: 2개의 기사를 통한 정리
| 카테고리 | 대표 사례 | 현상 |
|---|---|---|
| 감소 | 지식 결여 · 시제 불일치 | RAG · 웹 검색으로 개선 |
| ... |
할루시네이션은 "모델이 똑똑해지면 자연스럽게 사라지는 버그"가 아니다.
지식 액세스 문제는 해결할 수 있었다. 하지만 일반화, 대화 동조, 평가 설계에서 기인하는 문제는 계속 남아 있다. 그리고 Reasoning Model의 시대에는 "더 똑똑하게 생각하는 것"과 "사실에 정확한 것"이 반드시 같은 방향을 향하고 있지는 않다는 사례들이 보이기 시작했다.
향후 중요해지는 것은 정답률의 최대화뿐만 아니라, 모델이 "모른다", "알 수 없다"라고 말할 수 있는 조건을 설계 안에 어떻게 포함할 것인가이다.
참고 문헌
참고 문헌
- OpenAI. o3 and o4-mini System Card, 2025
- Yao, Z., Liu, Y., Chen, Y., Chen, J., Fang, J., Hou, L., Li, J., & Chua, T.-S. Are Reasoning Models More Prone to Hallucination? arXiv:2505.23646, 2025
- Liu, C., Xu, Z., Wei, Q., Wu, J., Zou, J., Wang, X. E., Zhou, Y., & Liu, S. More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models, arXiv:2505.21523, 2025
- OpenAI. Why language models hallucinate, 2025 (해설 기사)
- Kalai, A. T., Nachum, O., Vempala, S. S., et al. Evaluating large language models for accuracy incentivizes hallucinations,
Nature653, 1047–1051, 2026. https://doi.org/10.1038/s41586-026-10549-w - Phan, L. et al. Humanity's Last Exam, arXiv:2501.14249, 2025 (HLE 벤치마크)
논의

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn ML의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기