본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 11:06

문맥이 오해를 불러일으킬 때: LLM의 일관성 착각 지표로서의 Surprisal, Energy 및 Attention Entropy

요약

인간이 겪는 '일관성 착각' 현상이 LLM에서도 나타나는지 조사한 연구입니다. Surprisal, Attention Entropy, Energy 지표를 통해 모델이 문맥의 비일관성을 어떻게 처리하는지 분석했습니다.

핵심 포인트

  • LLM에서도 이전 문맥과 일치하는 방해 요소가 있으면 비일관성을 인지하지 못하는 착각이 발생함
  • 핵심 단어에서의 Surprisal 수치가 인간의 수용성 판단 및 안구 추적 데이터와 높은 상관관계를 보임
  • Attention Entropy를 통해 일관성 판단에 관여하는 특정 어텐션 헤드를 식별할 수 있음
  • 담화 일관성 정량화를 위해 연상 메모리 개념인 Energy 지표를 도입함

심리언어학(Psycholinguistics) 연구에 따르면 인간 독자들은 일관성 착각(coherence illusions)에 빠지곤 합니다. 즉, 비일관적인 담화가 단순히 방해 요소(distractor)가 다음에 올 내용과 일치한다는 이유만으로 일관성 있게 보일 수 있다는 것입니다. 본 연구에서는 네덜란드어 언어 모델(단일 언어 모델 6개 및 다국어 모델 4개)이 'again'이나 'too'와 같은 단어를 사용하여 이전 문맥과 연결되는 텍스트에서 동일한 행동을 보이는지 조사합니다. 첫째, 우리는 핵심 단어(critical word)에서의 surprisal(놀람도)이 인간의 수용성 판단(acceptability judgments) 및 안구 추적(eye-tracking) 데이터와 일치한다는 것을 발견했습니다. 모델은 비일관적인 연속 문구에 대해 더 큰 surprisal을 느끼지만, 이전 문맥에 일치하는 방해 요소가 있으면 이 surprisal이 감소합니다. 둘째, 핵심 위치에서의 attention entropy(어텐션 엔트로피)는 일관성(coherence) 대 비일관성(incoherence) 상황에서 다르게 작동하는 헤드(heads)를 식별합니다. 우리는 이러한 헤드들을 제거(ablating)했을 때 실험 전반에 걸쳐 전이 효과(transfer effects)가 나타남을 확인하였으며, 이는 공유된 메커니즘이 존재함을 시사합니다. 셋째, 우리는 담화 일관성(discourse coherence)을 정량화하기 위한 지표로서 연상 메모리(associative-memory) 문헌의 energy(에너지) 개념을 도입합니다. 종합하면, 우리의 결과는 네덜란드어 LLM에서도 일관성 착각이 발생하며, entropy와 energy가 다양한 설정에서 작동하는 메커니즘을 드러낸다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0