arXiv논문2026. 05. 25. 16:47

문맥화된 단어 임베딩 (Contextualized Word Embeddings)에서의 의미 유형 및 강제 (Coercion)에 관한 그래프

요약

본 논문은 문맥화된 단어 임베딩에서 명사와 문맥 간의 의미 유형 불일치 및 강제 현상을 분석하기 위한 그래프 기반 방법론을 제안합니다. BERT와 의미 강화 임베딩을 활용해 그래프를 구축하고, 새로운 지표인 NTP와 NTE를 통해 의미 유형 분포를 효과적으로 분석할 수 있음을 입증했습니다.

핵심 포인트

명사와 문맥 간 의미 유형 불일치 및 강제 현상 조사
그래프 기반의 어휘적/문맥적 유형 정보 분석 방법론 제안
NTP 및 NTE 지표를 통한 이웃 유형 분포 분석 가능
의미 강화 임베딩이 의미 유형 정보를 더 잘 반영함을 확인

명사와 그 문맥 사이의 의미 유형 불일치 (Semantic type mismatch)는 강제 (Coercion) 현상의 핵심입니다. 본 논문은 어휘적 및 문맥적 유형 정보가 단어 임베딩 (Word embeddings)에 어떻게 반영되는지 조사하기 위한 그래프 기반 방법을 소개합니다. 우리는 10가지 의미 유형 (Semantic types)에서 명사를 선정하고, 유형 일치 여부(일치 vs. 강제 vs. 기타 불일치 vs. 제한 없음)에 대해 코퍼스 인스턴스에 주석을 달았으며, BERT 및 의미 강화 임베딩 (Sense-enhanced embeddings)을 사용하여 그래프를 구축했습니다. 이웃 유형 확률 (Neighbor Type Probability, NTP)과 이웃 유형 엔트로피 (Neighbor Type Entropy, NTE)라는 두 가지 지표를 제안하여 이웃 유형 분포를 분석합니다. 결과에 따르면, 의미 강화 임베딩으로 구축된 그래프가 의미 유형 정보를 더 잘 반영하며, 제안된 지표를 통해 일치 문장과 불일치 문장을 구분할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

문맥화된 단어 임베딩 (Contextualized Word Embeddings)에서의 의미 유형 및 강제 (Coercion)에 관한 그래프

요약

핵심 포인트

댓글