arXiv논문2026. 05. 08. 16:46

The Frequency Confound in Language-Model Surprisal and Metaphor Novelty

요약

언어모델(LM)의 놀라움(surprisal)은 문맥 예측 가능성의 좋은 대리 지표로 사용되어 왔으며 비유적 신비성 평가와 관련이 있다고 알려져 왔다. 그러나 본 연구는 surprisal이 단어 빈도수와 밀접하게 연관되어 있음을 밝혀내고, 두 가지 다른 단어 빈도 측정법을 사용하여 이 상호작용을 탐구했다. 분석 결과, 모든 설정에서 단어 빈도가 surprisal보다 비유적 신비성을 더 잘 예측했으며, LM의 학습 단계에 따른 놀라움-신비성 연관성은 시간이 지남에 따라 감소하는 경향을 보였다.

핵심 포인트

LM surprisal은 문맥 예측 가능성의 대리 지표로 사용되지만, 단어 빈도수와 강하게 상관되어 있다.
연구 결과, 비유적 신비성(metaphor novelty) 평가는 LM의 놀라움(surprisal)보다 단어 빈도수를 더 잘 반영한다.
LM의 학습 단계에 따른 surprisal-신비성 연관성은 초기 최고점을 찍은 후 감소하며, 이는 surprisal-빈도수 연관성의 증가를 반영한다.
따라서, LM surprisal을 비유적 신비성과 처리 난도의 근본적인 지표로 해석할 때 단어 빈도를 간과해서는 안 된다.

언어모델 (LM) surprisal 은 문맥 예측 가능성의 대용량으로 널리 사용되며, 비유적 신비성 평가와 상관관계가 있다고 보고되었습니다. 그러나 surprisal 은 단어 빈도수와 밀접하게 연관되어 있습니다. 우리는 두 가지 다른 단어 빈도 측정법을 사용하여 비유적 신비성 평가에서 이 상호작용을 탐구했습니다. 우리는 8 개의 Pythia 모델 크기와 154 개의 학습 체크포인트의 surprisal 추정을 분석했습니다. 모든 설정에서 단어 빈도는 surprisal 보다 비유적 신비성을 더 잘 예측합니다. 학습 단계에 따라 surprisal--신비성 연관성은 초기 단계에서 최고점을 찍은 후 다시 감소하며, 이는 유사한 타이밍의 surprisal--빈도수 연관성 증가를 반영합니다. 이러한 결과는 종종 보고되는 최적의 LM surprisal 설정이 문맥 예측 가능성을 비유적 신비성과 처리 난이도와 잘못 연상할 수 있음을 시사하며, 단어 빈도가 주요 근본적인 요인일 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

The Frequency Confound in Language-Model Surprisal and Metaphor Novelty

요약

핵심 포인트

댓글