언어 모델이 환각을 일으키는 이유에 대한 이해: 사전 지식(Priors)에 대한 추론 테스트

대규모 언어 모델(Large language models)은 종종 프롬프트 수준의 제약 조건을 위반하는 환각(hallucinated) 답변을 생성합니다. 핵심적인 진단 질문은 이러한 실패가 지식의 부재를 반영하는 것인지, 아니면 모델이 관련 정보를 가지고 있음에도 잘못된 추론 경로를 따르는 것인지에 대한 것입니다. 우리는 이 현상을 추론 불일치(inference misalignment)로 연구합니다. 즉, 프롬프트에 의해 뒷받침되는 답변과 통계적으로 두드러진 잠재적 연관성(latent associations)에 의해 선호되는 답변 사이의 불일치를 의미합니다. 우리는 이를 잠재적 핵심-작업 모델(latent key-task model)로 공식화하며, 이 모델에서 사전 학습 빈도의 불균형(pretraining-frequency imbalance)은 지름길 경로(shortcut path)가 제약 조건에 민감한 경로(constraint-sensitive path)를 압도하게 만들어 양의 추론 손실(positive inference loss)을 유발할 수 있습니다. 이 프레임워크는 두 가지 실패 모드를 예측합니다: 개체 모호성 해소(entity disambiguation)에서의 작업-검색 편향(task-retrieval bias)과 행동 선택(action choice)에서의 핵심-선택 편향(key-selection bias)입니다. 우리는 두 가지 구성 요소로 이루어진 통제된 진단 테스트베드인 TrapQA를 도입합니다. ScientistQA는 보충적인 사실 조사(factual probes)를 통해 유사한 과학자들 사이의 모호성 해소를 테스트하며, Real-Life Constrained QA는 두드러진 지름길(salient shortcuts) 하에서의 일상적인 제약 조건 준수를 테스트합니다. 우리의 연구 결과는 환각이 단순히 지식의 부재 때문이 아니라 편향된 잠재적 추론(biased latent inference)으로부터 발생할 수 있음을 보여줍니다.

Insights

언어 모델이 환각을 일으키는 이유에 대한 이해: 사전 지식(Priors)에 대한 추론 테스트

요약

핵심 포인트

댓글

기본 요소가 아닌 객체로서의 장면

AI의 자기 검수는 내부 식구에게 관대하다. 별도 계통 AI(codex/GPT/Gemini)에게 채점하게 하는 OSS 「loop-verify」

Vertigo Vertigo: 예측적 AI 더블을 통한 영화적 이상향의 재구성

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

AI의 자기 검수는 내부 식구에게 관대하다. 별도 계통 AI(codex/GPT/Gemini)에게 채점하게 하는 OSS 「loop-verify」

Vertigo Vertigo: 예측적 AI 더블을 통한 영화적 이상향의 재구성

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)