arXiv논문2026. 05. 22. 16:46

IdioLink: 관용구와 직설적 표현 사이의 단어를 넘어선 의미 검색

요약

관용구의 표면적 형태와 실제 의미 사이의 간극을 해결하기 위한 새로운 검색 벤치마크 IdioLink를 소개합니다. 기존 임베딩 모델들이 관용적 표현의 심층적 의미를 파악하지 못하고 주제적 단서에 의존한다는 한계를 지적합니다.

핵심 포인트

관용구 이해를 위한 의미적 추상화의 중요성 강조
107개 관용구와 10,700개 문서를 포함한 IdioLink 벤치마크 제안
기존 임베딩 모델(BGE, E5 등)의 관용구 검색 성능 한계 입증
표면적 형태를 넘어선 관용구 인지 의미 검색의 필요성 제시

관용구(Idioms)는 그 의미를 표면적 형태(surface form)만으로는 추론할 수 없기 때문에 언어 모델(language models)에게 근본적인 과제를 제기합니다. 따라서 이러한 표현을 이해하려면 어휘적 중첩(lexical overlap)을 넘어선 의미적 추상화(semantic abstraction)가 필요합니다. 우리는 모델이 관용적 표현을 직설적(literal)이거나 의역된(paraphrased) 형태로 표현된 개념적으로 동등한 의미와 연결할 수 있는지 테스트하기 위해 설계된 검색 벤치마크(retrieval benchmark)인 IdioLink를 소개합니다. IdioLink는 직설적 용법과 비유적 용법을 모두 가진 107개의 관용구를 아우르는 10,700개의 문서와 2,140개의 쿼리로 구성됩니다. 각 문서와 쿼리에는 핵심 의미를 전달하는 구간(spans)이 주석으로 달여 있습니다. 강력한 임베딩 베이스라인(embedding baselines, 예: BGE, E5, Contriever, Qwen)을 평가한 결과, 현재의 모델들은 서로 다른 표면적 구현(surface realizations) 사이에서 동등한 의미를 검색하는 데 어려움을 겪고 있으며, 대신 주제적(topical)이고 얕은 의미론적 단서(shallow semantic cues)에 의존하고 있음을 보여줍니다. IdioLink는 관용구 인지 의미 검색(idiom-aware semantic retrieval)의 주요 격차를 드러내며, 향후 모델들을 위한 도전적인 테스트베드(testbed)를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

IdioLink: 관용구와 직설적 표현 사이의 단어를 넘어선 의미 검색

요약

핵심 포인트

댓글