BD-LSC 데이터셋: 속어 및 표준어 사용에서의 어휘 의미 변화 탐지 모델 벤치마킹 촉진
요약
단어의 의미가 시간에 따라 변화하는 양방향 의미 변화(sense gain/loss)를 탐지하기 위한 BD-LSC 및 SlangTrack 데이터셋을 제안합니다. 속어와 표준어의 복잡한 의미 궤적을 분석하며, GPT-4o가 가장 우수한 성능을 보였으나 속어 탐지에는 여전히 한계가 있음을 확인했습니다.
핵심 포인트
- 양방향 의미 변화(BD-LSC)를 포착하는 새로운 벤치마크 데이터셋 소개
- 속어와 표준어의 혼용을 다루는 SlangTrack WSD 데이터셋 제공
- GPT-4o가 퓨샷 학습을 통해 가장 강력한 종합 성능을 달성
- 희귀 속어의 의미 변화 탐지는 여전히 해결해야 할 핵심 과제
자동 의미 변화 탐지 (Automatic semantic change detection)는 단어의 의미가 시간이 지남에 따라 어떻게 변화하는지 식별하는 것을 목표로 하며, 언어적 및 사회적 변화 모두에 대한 통찰을 제공합니다. 최근 계산 어휘 의미 변화 (computational lexical semantic change (LSC)) 분야의 발전에도 불구하고, 기존의 벤치마크와 방법론들은 양방향 의미 변화 (bi-directional semantic change), 특히 단어가 의미를 동시에 얻거나 잃는 사례를 포착하는 데 어려움을 겪고 있습니다. 이 문제는 속어(slang)와 표준어(standard) 의미를 모두 가진 단어들에게 특히 도전적인 과제입니다. 이러한 격차를 해소하기 위해, 우리는 두 가지 상호 보완적인 벤치마크 데이터셋을 소개합니다. 양방향 어휘 의미 변화 (Bi-Directional Lexical Semantic Change (BD-LSC)) 데이터셋은 세 시기에 걸쳐 의미 획득(sense gain), 의미 상실(sense loss), 그리고 안정성(stability)을 포착하여 복잡한 의미 궤적(semantic trajectories) 연구를 가능하게 합니다. SlangTrack 어휘 의미 중의성 해소 (SlangTrack Word Sense Disambiguation (ST-WSD)) 데이터셋은 속어와 표준어 사용이 결합된 단어들에 대해 세밀한 인스턴스 수준의 의미 주석(sense annotations)을 제공하여, 어휘 의미 중의성 해소 (WSD) 및 의미 변화 탐지 모델의 체계적인 벤치마킹을 지원합니다. 이러한 벤치마크를 사용하여, 우리는 서로 다른 방법론적 계열에 걸쳐 모델들을 체계적으로 평가합니다: 문맥화된 임베딩 (contextualised embeddings)을 사용한 비지도 클러스터링 (unsupervised clustering), 지도 학습 (supervised machine learning), 트랜스포머 기반 모델 (transformer-based models), 그리고 최첨단 대규모 언어 모델 (state-of-the-art large language models). 평가된 시스템 중에서, 퓨샷 (few-shot) GPT-4o 모델이 정확한 의미 일치 (Exact Sense Match (ESM)) 및 다중 레이블 정확도 (multi-label accuracy)에서 가장 강력한 종합 성능을 달성했습니다. 그러나 모든 시스템에서 0.5 근처의 매크로 F1 (Macro-F1) 점수를 보인 것은 희귀한 속어 의미가 여전히 어렵다는 것을 보여주며, 우리는 이를 핵심적인 미해결 과제로 식별합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기