할루시네이션(Hallucination)은 왜 발생하는가

1. 서론

안녕하세요, 료상입니다. 저는 QA 엔지니어로, 평소 테스트 설계에 생성 AI (Claude)를 사용하고 있습니다.

생성 AI로 테스트 설계를 하다 보면, 할루시네이션 (Hallucination, 그럴듯하지만 틀린 출력)을 반드시 마주하게 됩니다. 실증 연구 측면을 살펴보면, Ji 등 2023 (arXiv:2202.03629 / ACM Computing Surveys) 또는 Huang 등 2025 (arXiv:2311.05232 / ACM TIS)와 같은 포괄적인 서베이 (Survey)가 마련되어 있고, 탐지 (SelfCheckGPT / FActScore 등)나 완화 (CoVe / DoLa / RAG 등) 기법도 많이 제안되어 있습니다. 다만, 그것들을 테스트 설계 실무에 어떻게 적용할 것인가 — 어떤 종류의 할루시네이션이 어떤 공정에서 어떤 관점의 누락으로 나타나는가 — 에 대한 정리는 산재해 있다는 것이 글을 쓰며 느낀 점이었습니다. 실제로 저 자신도 논문을 기반으로 생성 AI에게 조사를 시키고 있습니다.

생성 AI의 '기능 측면'에 대한 문서는 비교적 잘 정리되어 있는 것과 대조적입니다. 실제로 저 자신도...

본 기사는 그 부분을 생성 AI 스스로 소스(Source)와 함께 집약하게 한 결과입니다. 생성 AI에게 자기 자신의 거동을 말하게 하는 메타적인 시도이기도 합니다.

할루시네이션은 현상의 이름이지, 원인에 대한 설명이 아닙니다. '열이 있다'가 증상이지 원인이 아닌 것과 마찬가지로, 여러 메커니즘이 하류(Downstream)에서 나타난 결과에 불과합니다. 원인이 다르면 효과적인 대책도 다릅니다.

본 기사는 연재 3편 중 세 번째입니다. 읽기 축에 대해서는 별도 기사 『생성 AI는 문장을 어떻게 읽는가?』를, 행동 축에 대해서는 별도 기사 『생성 AI는 어떻게 행동하는가?』를 참조해 주세요. 제1편은 입력 측면 (17가지 읽기 편향), 제2편은 행동 측면 (Sycophancy 등), 제3편은 그 **하류 (Downstream)**를 다룹니다. 읽기와 행동의 왜곡이 결정화된 것이 할루시네이션입니다.

2. 분류: intrinsic과 extrinsic

할루시네이션은 두 가지로 나뉩니다 (Maynez et al. 2020, ACL, aclanthology.org/2020.acl-main.173).

intrinsic: 소스와 모순되는 것 ("상한 100건"을 "상한 1000건"으로 요약함)
extrinsic: 소스에 없는 사실을 추가하는 것 (사양서에 없는 API 인자를 "기본값은 true"라고 설명함)

참고로 당시 SOTA (State-of-the-Art) 추상 요약 모델에서 출력의 70% 이상에 어떠한 할루시네이션이 포함된다는 보고가 있습니다. 생성 계열의 기저 상태에 가깝다고 할 수 있습니다.

→ 테스트 설계에서는: intrinsic은 "사양서의 상한값과 다른 테스트 케이스", extrinsic은 "사양서에 없는 기능·에러·권한의 테스트 케이스"로 나타납니다. 전자는 사양 대조를 통해 기계적으로 탐지할 수 있지만, 후자는 "그럴듯한 관점"으로서 인간의 리뷰도 빠져나가 버립니다.

3. 서베이 전체상

LLM 시대의 조망으로서 Ji et al. 2023 (arXiv:2202.03629 / ACM Computing Surveys)가 있습니다. 원인은 세 가지 계통 — 데이터 기인 (학습 데이터에 잘못된 정보나 편향이 있음), 모델 기인 (다음 단어를 선택할 때 '흔히 쓰이는 단어'로 흐르기 쉬움), 훈련 기법 기인 ("그럴듯하고 유창하게 쓰는 것"이 보상받기 쉬움) 입니다.

→ 테스트 설계에서는: 학습 데이터에 넘쳐나는 "교과서적인 테스트 분류" (정상계/이상계/경계값)가 높은 확률로 재생산되어, 안건 고유성이 사라지는 방향으로 편향이 발생합니다.

4. 주요 패턴

4.1 Snowball (눈덩이 방식)

한 번 할루시네이션을 내뱉으면, 그것을 전제로 후속 내용을 구성하여 오류가 확대되는 현상입니다 (Zhang et al. 2023, arXiv:2305.13534 / ICML 2024).

→ 테스트 설계에서는: 사양 분석 초기에 "이것은 월간 배치 기능"이라고 오분류하면, 그 이후의 관점 추출 전체가 월간 프레임에 고정되어 버립니다.

4.2 Confabulation (작작/창작)

모르는 부분을 앞뒤가 맞게 꾸며내는 현상입니다 (Sui et al. 2024, arXiv:2406.04175 / ACL 2024). 신경심리학에서 빌려온 용어로, 형식이 너무 잘 갖춰져 있기 때문에 탐지하기 까다롭다는 특징이 있습니다.

→ 테스트 설계에서는: 사양서(Specification)에 적혀 있지 않은 파라미터, 에러 코드, 권한 등을 형식이 잘 갖춰진 테스트 케이스로 채워 넣습니다. 사양서 원문과 대조하지 않으면, 존재하지 않는 동작에 대한 테스트라는 사실을 알아차릴 수 없습니다.

4.3 Sycophancy (아첨/추종)

사용자의 전제에 따라 사실을 왜곡하는 경향입니다 (Sharma et al. 2023, arXiv:2310.13548). RLHF (Reinforcement Learning from Human Feedback)를 통해 '인간이 선호하는 응답'으로 편향(Bias)이 주입된 결과입니다.

→ 테스트 설계에서는: 리뷰에서 "이 관점도 넣어줘", "이거 누락된 거 아냐?"라고 확신에 찬 말투로 암시하면, LLM은 사양에 없는 관점을 긍정적으로 추가해 옵니다. 자세한 내용은 제2편 B1 (공개 예정)에서 다룹니다.

5. 검출 기법과 그 한계

출력 후의 검출 접근 방식 3가지를 소개합니다.

SelfCheckGPT (Manakul et al. 2023, arXiv:2303.08896 / EMNLP 2023): 여러 번 샘플링하여 **자기 일관성 (Self-consistency)**으로 확신도를 측정합니다. 계통적으로 동일한 오류를 내뱉는 경우에는 무력합니다.
FActScore (Min et al. 2023, arXiv:2305.14251 / EMNLP 2023): 긴 문장을 **원자적 사실 단위 (Atomic fact units)**로 분해하여 Wikipedia와 대조합니다. 인물 전기 생성에서 **원자 정확도 (Atomic accuracy) 42-58%**라는 결과가 나왔습니다. 사내 독자 사양일 경우 대조할 대상이 없습니다.
HaluEval (Li et al. 2023, arXiv:2305.11747 / EMNLP 2023): "ChatGPT가 자신의 출력을 스스로 인지할 수 있는가"를 측정하며, 태스크에 따라 50-70% 수준에 머물러 있습니다.

→ 테스트 설계에서는: 이들은 모두 단독으로는 약합니다. 이전 단계의 출력을 전혀 보지 않는 별도의 채팅창에 사양서만 전달하여 독립적으로 평가하게 하는 경로와, 사양서 측의 기계적 대조를 조합해야 합니다.

6. 완화책과 그 한계

생성 단계에서 줄이는 접근 방식 3가지를 소개합니다.

CoVe (Dhuliawala et al. 2023, arXiv:2309.11495): 생성 → 검증 질문 → 검증 답변 → 수정의 4단계 구조입니다. 동일 모델 내의 자기 검증에 국한됩니다.
DoLa (Chuang et al. 2023, arXiv:2309.03883 / ICLR 2024): 디코딩 (Decoding) 시 Transformer의 상층부와 하층부의 확률을 대비합니다. 모델 내부에 없는 지식에는 무력합니다.
RAG (Lewis et al. 2020, arXiv:2005.11401 / NeurIPS 2020): 외부 지식 베이스에서 검색(Retrieval)하여 컨텍스트(Context)로 제공합니다. 읽어내지 못하면 (Reading failure) 결국 누락됩니다 (제1편의 편향이 여기서 작용합니다).

이들은 모두 **확률적 완화 (Probabilistic mitigation)**일 뿐, 제로화(Zeroing)가 아닙니다.

→ 테스트 설계에서는: 완화책을 아무리 쌓아도 단일 프롬프트 및 단일 공정으로 수행하는 테스트 설계에는 한계가 있습니다. 공정을 나누어 쌓아 올리는 (사양 읽기 → 검증 → 관점 추출 → 테스트 케이스화) 설계가 필요합니다.

7. 불가피성의 이론적 증명

할루시네이션은 수학적으로 불가피함을 계산 가능성 이론(Computability theory)으로 증명한 것이 Xu et al. 2024 (arXiv:2401.11817)입니다. 프롬프트 기법, RAG, 파인튜닝 (Fine-tuning) — 그 무엇을 더해도 할루시네이션을 제로로 만드는 LLM은 만들 수 없습니다.

→ 테스트 설계에서는: "AI가 내놓은 관점과 테스트 케이스에는 반드시 할루시네이션이 포함되어 있다"는 전제하에, 후속 독립 검증을 입구 단계부터 설계에 포함시킵니다. "좋은 AI 도구를 선택하면 사라진다"가 아니라 "어떤 도구를 써도 사라지지 않는다"는 지점에서 설계가 시작됩니다.

8. 자기 수정의 한계

"모델에게 자신의 출력을 다시 검토하게 하는" 접근 방식은 구조적으로 취약하며, 종종 상황을 악화시킵니다 (Huang et al. 2024, arXiv:2310.01798 / ICLR 2024).

→ 테스트 설계에서는: 동일한 채팅창에서 "이 관점 리스트에서 빠진 것을 지적해줘"라고 요청해도 개선되지 않습니다. **별도의 채팅창을 열고, 이전 단계의 출력을 보여주지 않은 채 사양서만 전달하여 재독 (Re-reading)**하게 하는 방법이 유효합니다 (제1편 §6 대책 3).

9. 제1편 / 제2편과의 연결

3편의 연재 관계를 마지막으로 다시 한번 정리하겠습니다. 제1편은 입력 측 (Input side) (17가지 읽기 편향), 제2편은 행동 측 (Behavior side) (Sycophancy / Refusal / Persona / Multi-agent failure), 제3편은 **하류 (Downstream)**입니다. 읽기와 행동의 왜곡이 결정화된 것이 바로 할루시네이션 (Hallucination)입니다.

연쇄의 예:

사양서 중앙의 예외 조항을 간과 (읽기 축 Lost in the Middle) → 상충하는 API 사양을 생성 (confabulation) → 일관성 있는 추가 예시 생성 (Snowball)
"이 함수 있지?"라고 질문을 받음 (행동 축 Sycophancy) → 존재하지 않는 함수를 긍정 (intrinsic) → 이용 사례를 전개 (Snowball + confabulation)

Hallucination is downstream — 읽기와 행동의 왜곡이 할루시네이션 (Hallucination)으로서 나타나고 있는 것입니다.

보충: 정보의 최신성에 대하여

본 기사에서 인용하고 있는 할루시네이션 (Hallucination) 관련 연구는 2020~~2024년 중심입니다. 이 영역은 2023~~2025년에 걸쳐 급격히 정립되고 있으며, Ji 등 2023 (arXiv:2202.03629)이나 Huang 등 2025 (arXiv:2311.05232 / ACM TIS) 등의 포괄적인 서베이 (Survey) 논문들이 나오고 있습니다. 탐지 및 완화 기법 (SelfCheckGPT / FActScore / CoVe / DoLa / RAG 등)의 진화로 인해, 개별 할루시네이션 (Hallucination)의 발생률은 완화되는 경향이 있다는 보고도 있습니다.

다만, 반증 측의 논문을 포함하여 조사한 결과, 할루시네이션 (Hallucination)의 제로화는 불가능하며 (Xu 2024가 계산 가능성 이론으로 증명), 확률적 경감에 그칠 뿐이다라는 것이 현재까지의 결론입니다. 본 기사의 무게 중심 또한 개별적인 경감 방법이 아니라, 제로가 되지 않는다는 전제하에 어떻게 공정을 구성할 것인가에 있습니다.

보충: 인용 논문에 대한 접근에 대하여

본 기사의 인용 논문은 서지 정보 (제목·저자·연도·학술지·DOI/arXiv ID)를 공식 링크를 통해 검증하였습니다. 인용처는 대체로 할루시네이션 (Hallucination) 관련 머신러닝 (Machine Learning) 및 자연어 처리 (NLP) 계열 논문 (Maynez 2020 / Ji 2023 / Zhang 2023 / Sui 2024 / Sharma 2023 / Manakul 2023 / Min 2023 / Li 2023 / Dhuliawala 2023 / Chuang 2023 / Lewis 2020 / Xu 2024 / Huang 2024 등)이며, arXiv preprint를 통해 원전에 접근하였습니다. 다만 전문을 정독한 것은 아니며, 초록 (Abstract)·서론 (Introduction)의 주장, 본문 중의 해당 절, 서베이 논문 (Ji 2023 / Huang 2025)의 해설, 후속 논문의 인용 부분 등을 조합하여 내용을 확인하였습니다.

참고문헌

분류·서베이

Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., Chen, Q., Peng, W., Feng, X., Qin, B., & Liu, T. (2025). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. ACM Transactions on Information Systems. arXiv:2311.05232
Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., & Fung, P. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12), 1-38. arXiv:2202.03629
Maynez, J., Narayan, S., Bohnet, B., & McDonald, R. (2020). On Faithfulness and Factuality in Abstractive Summarization. Proceedings of ACL 2020, 1906-1919. aclanthology.org/2020.acl-main.173

주요 패턴

Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S. R., Cheng, N., Durmus, E., Hatfield-Dodds, Z., Johnston, S. R., Kravec, S., Maxwell, T., McCandlish, S., Ndousse, K., Rausch, O., Schiefer, N., Yan, D., Zhang, M., & Perez, E. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548
Sui, P., Duede, E., Wu, S., & So, R. J. (2024). Confabulation: The Surprising Value of Large Language Model Hallucinations. ACL 2024. arXiv:2406.04175 - Zhang, M., Press, O., Merrill, W., Liu, A., & Smith, N. A. (2023). How Language Model Hallucinations Can Snowball. ICML 2024. arXiv:2305.13534

탐지 기법

Li, J., Cheng, X., Zhao, W. X., Nie, J.-Y., & Wen, J.-R. (2023). HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models. EMNLP 2023. arXiv:2305.11747 - Manakul, P., Liusie, A., & Gales, M. J. F. (2023). SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models. EMNLP 2023. arXiv:2303.08896 - Min, S., Krishna, K., Lyu, X., Lewis, M., Yih, W.-t., Koh, P. W., Iyyer, M., Zettlemoyer, L., & Hajishirzi, H. (2023). FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation. EMNLP 2023. arXiv:2305.14251

완화책

Chuang, Y.-S., Xie, Y., Luo, H., Kim, Y., Glass, J., & He, P. (2023). DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models. ICLR 2024. arXiv:2309.03883 - Dhuliawala, S., Komeili, M., Xu, J., Raileanu, R., Li, X., Celikyilmaz, A., & Weston, J. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. arXiv:2309.11495
Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W.-t., Rocktäschel, T., Riedel, S., & Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020. arXiv:2005.11401

이론적 불가피성 및 자기 교정의 한계

Huang, J., Chen, X., Mishra, S., Zheng, H. S., Yu, A. W., Song, X., & Zhou, D. (2024). Large Language Models Cannot Self-Correct Reasoning Yet. ICLR 2024. arXiv:2310.01798 - Xu, Z., Jain, S., & Kankanhalli, M. (2024). Hallucination is Inevitable: An Innate Limitation of Large Language Models. arXiv:2401.11817