arXiv논문2026. 06. 23. 11:06

문맥이 오해를 불러일으킬 때: LLM의 일관성 착각 지표로서의 Surprisal, Energy 및 Attention Entropy

요약

인간이 겪는 '일관성 착각' 현상이 LLM에서도 나타나는지 조사한 연구입니다. Surprisal, Attention Entropy, Energy 지표를 통해 모델이 문맥의 비일관성을 어떻게 처리하는지 분석했습니다.

핵심 포인트

LLM에서도 이전 문맥과 일치하는 방해 요소가 있으면 비일관성을 인지하지 못하는 착각이 발생함
핵심 단어에서의 Surprisal 수치가 인간의 수용성 판단 및 안구 추적 데이터와 높은 상관관계를 보임
Attention Entropy를 통해 일관성 판단에 관여하는 특정 어텐션 헤드를 식별할 수 있음
담화 일관성 정량화를 위해 연상 메모리 개념인 Energy 지표를 도입함

심리언어학(Psycholinguistics) 연구에 따르면 인간 독자들은 일관성 착각(coherence illusions)에 빠지곤 합니다. 즉, 비일관적인 담화가 단순히 방해 요소(distractor)가 다음에 올 내용과 일치한다는 이유만으로 일관성 있게 보일 수 있다는 것입니다. 본 연구에서는 네덜란드어 언어 모델(단일 언어 모델 6개 및 다국어 모델 4개)이 'again'이나 'too'와 같은 단어를 사용하여 이전 문맥과 연결되는 텍스트에서 동일한 행동을 보이는지 조사합니다. 첫째, 우리는 핵심 단어(critical word)에서의 surprisal(놀람도)이 인간의 수용성 판단(acceptability judgments) 및 안구 추적(eye-tracking) 데이터와 일치한다는 것을 발견했습니다. 모델은 비일관적인 연속 문구에 대해 더 큰 surprisal을 느끼지만, 이전 문맥에 일치하는 방해 요소가 있으면 이 surprisal이 감소합니다. 둘째, 핵심 위치에서의 attention entropy(어텐션 엔트로피)는 일관성(coherence) 대 비일관성(incoherence) 상황에서 다르게 작동하는 헤드(heads)를 식별합니다. 우리는 이러한 헤드들을 제거(ablating)했을 때 실험 전반에 걸쳐 전이 효과(transfer effects)가 나타남을 확인하였으며, 이는 공유된 메커니즘이 존재함을 시사합니다. 셋째, 우리는 담화 일관성(discourse coherence)을 정량화하기 위한 지표로서 연상 메모리(associative-memory) 문헌의 energy(에너지) 개념을 도입합니다. 종합하면, 우리의 결과는 네덜란드어 LLM에서도 일관성 착각이 발생하며, entropy와 energy가 다양한 설정에서 작동하는 메커니즘을 드러낸다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

문맥이 오해를 불러일으킬 때: LLM의 일관성 착각 지표로서의 Surprisal, Energy 및 Attention Entropy

요약

핵심 포인트

댓글