G-IdiomAlign: 교차 언어 관용구 정렬을 위한 의미 설명(Gloss) 중심 벤치마크
요약
교차 언어 관용구 정렬을 위해 Wiktionary의 의미 설명(Gloss)을 활용한 새로운 벤치마크 G-IdiomAlign을 제안합니다. LLM이 관용구를 문자 그대로 번역하는 편향을 분석하고, 의미 설명이 성능 향상에 미치는 영향을 평가합니다.
핵심 포인트
- 의미 설명(Gloss) 중심의 교차 언어 관용구 벤치마크 G-IdiomAlign 제시
- LLM이 저자원 언어에서 관용구를 문자 그대로 번역하는 경향 확인
- 의미 설명(Gloss) 제공 시 의미 중심 생성 성능이 향상됨을 입증
- Qwen3-8B 분석을 통해 어텐션 헤드의 의미 설명 고정 역할 확인
관용구(Idioms)는 비구성성(non-compositionality)과 약한 표층 형태 기반(surface-form grounding) 특성으로 인해 언어 간 전이가 어려우며, 이로 인해 문자 그대로의 매핑(literal mappings)은 신뢰하기 어렵습니다. 우리는 각 관용구가 Wiktionary의 영어 의미 설명(English gloss)에 의해 고정되는, 의미 설명 중심의 벤치마크인 G-IdiomAlign을 제시합니다. 나아가 재현 가능한 평가를 위해 높은 신뢰도를 가진 참조 정렬 세트(reference alignment set)를 구축했습니다. G-IdiomAlign은 두 가지 프로토콜을 지원합니다: (1) 오류 원인 규명을 위해 유형화된 오답(distractors)을 포함하는 통제된 다지선다형 관용구 등가성(Multiple-Choice Idiom Equivalence) 테스트, (2) 명시적인 의미 중심축(semantic pivot)의 효과를 분리하기 위해 '의미 설명 없음(No-gloss)'과 '의미 설명 있음(With-gloss)' 입력을 대조하는 의미 설명 대조 생성(Gloss-Contrastive Generation) 테스트입니다. 다양한 대규모 언어 모델(LLMs)에 걸쳐, 특히 대상 언어가 저자원 언어(low-resource language)일 때 문자 그대로의 번역(literal translation)으로 치우치는 편향이 지배적인 실패 모드로 나타납니다. 임베딩 기반의 의미 프록시(embedding-based semantic proxy) 하에서 의미 설명(Glosses)은 의미 설명 대조 생성 성능을 일관되게 향상시키지만, 성능은 여전히 완만하며 이는 개방형 출력 공간(open output space)에서 상당한 개선 여지가 있음을 시사합니다. Qwen3-8B에 대한 후속 분석은 조건 간의 차이가 레이어(layers)보다 어텐션 헤드(attention heads)에 더 집중되어 있으며, 더 나은 '의미 설명 있음(With-gloss)' 생성은 더 강력한 의미 설명 고정(gloss anchoring)과 일치한다는 점을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기