arXiv논문2026. 06. 15. 05:39

유사한 의미가 다른 경우: 아랍어-히브리어 동족어를 활용한 대규모 언어 모델(LLMs) 평가

요약

본 논문은 아랍어와 히브리어 같은 동족어 언어를 활용한 LLM의 교차 언어 의미 이해 능력을 평가하는 새로운 벤치마크인 SemCog Bench를 소개합니다. 이 벤치마크는 진정한 동족어, 가짜 친구, 차용어 쌍을 포함하며, 오픈 소스 및 상용 LLMs의 성능을 분석했습니다. 연구 결과, 모델들은 형태 유사성에 과도하게 의존하여 교차 언어 추론에서 결정적인 한계를 보였습니다.

핵심 포인트

SemCog Bench는 아랍어-히브리어 동족어를 활용한 새로운 평가 벤치마크입니다.
LLMs는 형태 유사성에 강하게 의존하며, 가짜 친구와 차용어에서 성능이 급격히 저하됩니다.
문장 수준의 문맥은 오해를 불러일으키는 형태 기반 신호를 극복하기에 불충분합니다.

아랍어와 히브리어는 밀접하게 관련된 셈어 계통 언어로, 상당수의 진정한 동족어(true cognates), 오해를 불러일으키는 가짜 친구(false friends), 그리고 현대의 차용어를 공유합니다. 이러한 중복은 대규모 언어 모델(LLMs)의 교차 언어 의미 이해에 어려움을 제기합니다. 이 능력을 평가하기 위해, 우리는 동족어 식별 및 의미 명료화(semantic disambiguation)를 위한 문장 수준 주석이 달린 1,858쌍의 아랍어-히브리어 단어 쌍으로 구성된 벤치마크인 SemCog Bench를 소개합니다. 우리는 여러 입력 표현 방식(원문, 모음 부호가 있는 형태, 로마자 표기, 음성학적)에 걸쳐 오픈 소스 및 상용 LLMs를 평가하고 교차 언어 추론에서 결정적인 격차를 밝혀냅니다. 모델들이 진정한 동족어에서는 높은 정확도를 달성하지만, 가짜 친구와 차용어에서는 성능이 급격히 떨어지는데, 이는 표면 형태 유사성에 대한 강한 의존성을 반영합니다. 더욱이, 문장 수준의 문맥은 미미한 개선만을 제공하여, 문맥적 단서만으로는 오해를 불러일으키는 형태 기반 신호를 극복하기에 불충분함을 시사합니다. 이러한 발견들은 현재 LLMs가 교차 언어 형태-의미 충돌을 해결하는 데 있어 근본적인 한계를 드러내며, SemCog Bench를 다국어 의미 추론을 위한 엄격한 벤치마크로 확립합니다. 우리의 코드와 데이터는 공개적으로 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

유사한 의미가 다른 경우: 아랍어-히브리어 동족어를 활용한 대규모 언어 모델(LLMs) 평가

요약

핵심 포인트

댓글