언어 모델이 환각을 일으키는 이유에 대한 이해: 사전 지식(Priors)에 대한 추론 테스트
요약
LLM의 환각 현상이 지식의 부재가 아닌, 사전 학습된 통계적 연관성에 의한 추론 불일치(inference misalignment)에서 발생함을 연구합니다. 이를 설명하기 위해 잠재적 핵심-작업 모델을 제안하고, 새로운 진단 테스트베드인 TrapQA를 도입했습니다.
핵심 포인트
- 환각은 지식 부족이 아닌 잘못된 추론 경로(지름길) 때문일 수 있음
- 사전 학습 빈도 불균형이 제약 조건 준수를 방해하는 현상 분석
- 두 가지 실패 모드: 작업-검색 편향 및 핵심-선택 편향
- 진단용 테스트베드 TrapQA(ScientistQA, Real-Life Constrained QA) 제안
대규모 언어 모델(Large language models)은 종종 프롬프트 수준의 제약 조건을 위반하는 환각(hallucinated) 답변을 생성합니다. 핵심적인 진단 질문은 이러한 실패가 지식의 부재를 반영하는 것인지, 아니면 모델이 관련 정보를 가지고 있음에도 잘못된 추론 경로를 따르는 것인지에 대한 것입니다. 우리는 이 현상을 추론 불일치(inference misalignment)로 연구합니다. 즉, 프롬프트에 의해 뒷받침되는 답변과 통계적으로 두드러진 잠재적 연관성(latent associations)에 의해 선호되는 답변 사이의 불일치를 의미합니다. 우리는 이를 잠재적 핵심-작업 모델(latent key-task model)로 공식화하며, 이 모델에서 사전 학습 빈도의 불균형(pretraining-frequency imbalance)은 지름길 경로(shortcut path)가 제약 조건에 민감한 경로(constraint-sensitive path)를 압도하게 만들어 양의 추론 손실(positive inference loss)을 유발할 수 있습니다. 이 프레임워크는 두 가지 실패 모드를 예측합니다: 개체 모호성 해소(entity disambiguation)에서의 작업-검색 편향(task-retrieval bias)과 행동 선택(action choice)에서의 핵심-선택 편향(key-selection bias)입니다. 우리는 두 가지 구성 요소로 이루어진 통제된 진단 테스트베드인 TrapQA를 도입합니다. ScientistQA는 보충적인 사실 조사(factual probes)를 통해 유사한 과학자들 사이의 모호성 해소를 테스트하며, Real-Life Constrained QA는 두드러진 지름길(salient shortcuts) 하에서의 일상적인 제약 조건 준수를 테스트합니다. 우리의 연구 결과는 환각이 단순히 지식의 부재 때문이 아니라 편향된 잠재적 추론(biased latent inference)으로부터 발생할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기