대규모 언어 모델(LLM)의 중국어 중의성 이해 능력 평가
요약
본 연구는 기존 중국어 중의성 데이터셋의 확장성 문제를 해결하기 위해 잠재적 중의성(PA) 이론에 기반한 새로운 데이터셋인 CHA-Gen을 구축했습니다. Gemma 3, Qwen 2.5/3 등 주요 LLM을 평가한 결과, 모델들이 중의성 탐지에 어려움을 겪으며 특정 실패 모드와 편향성을 보인다는 점을 확인했습니다. 또한, 지시어 튜닝이 모델의 과잉 확신을 유발할 수 있음을 밝히며 LLM의 중국어 중의성 처리 능력에 대한 중요한 통찰을 제공합니다.
핵심 포인트
- PA 이론을 기반으로 18개 구조, 5,712개 문장으로 구성된 확장 가능한 중국어 중의성 데이터셋 CHA-Gen 구축
- LLM의 주요 실패 모드로 중의성 맹목(ambiguity blindness), 잘못된 귀인(misattribution), 성급한 해결(premature resolution) 발견
- CoT(Chain of Thought) 프롬프팅을 통한 중의성 탐지 능력 개선 확인
- 지시어 튜닝(instruction tuning)이 모델의 과잉 확신을 유발하는 반면, 베이스 모델은 의미론적 다양성을 더 잘 포착함
- 모델들이 지배적인 해석에 편향되는 경향이 있으며, 의미론적 엔트로피를 통해 중의적 문장의 불확실성 정량화 가능
언어적 중의성 (Linguistic ambiguity)은 대규모 언어 모델 (LLMs)의 강건성 (robustness)에 매우 중요하지만, 기존 연구는 주로 영어에 집중되어 있으며 중국어에 대한 관심은 제한적이었습니다. 기존의 중국어 중의성 데이터셋 (예: CHAmbi)은 확장성 (scalability)이 떨어진다는 단점이 있습니다. 잠재적 중의성 (Potential Ambiguity, PA) 이론에 기반하여, 우리는 CHA-Gen을 구축하기 위한 반자동 파이프라인을 설계했습니다. 이는 18개의 잠재적 중의성 구조에 걸쳐 5,712개의 문장 (중의적 문장 2,414개, 비중의적 문장 3,298개)으로 구성된 최초의 PA 이론 기반 중국어 중의성 데이터셋입니다. 직접 질의 및 기계 번역 (machine translation)을 통해 LLMs (예: Gemma 3, Qwen 2.5/3 시리즈)를 평가한 결과, LLMs는 중의성 탐지 (ambiguity detection)에 어려움을 겪는 것으로 나타났습니다 (생각의 사슬 (CoT) 프롬프팅을 통해 개선됨). Qwen3-32B의 CoT 추론 과정을 분석한 결과, 세 가지 공통적인 실패 모드인 중의성 맹목 (ambiguity blindness), 잘못된 귀인 (misattribution), 그리고 성급한 해결 (premature resolution)이 발견되었습니다. 의미론적 엔트로피 (semantic entropy) 지표를 이용한 불확실성 정량화 (uncertainty quantification) 결과, 중의적 문장에서 더 높은 불확실성이 나타났습니다. 또한, 지시어 튜닝 (instruction tuning)은 과잉 확신 (overconfidence)을 유발하는 반면, 베이스 모델 (Base models)은 의미론적 다양성 (semantic diversity)을 더 잘 포착합니다. 우리는 더 나아가 모델들이 지배적인 해석 (dominant interpretations)에 편향되는 경향이 있음을 관찰했습니다. 본 연구는 중국어 중의성 코퍼스 (corpus)를 위한 확장 가능한 접근 방식과 LLMs의 중의성 처리 능력에 대한 통찰을 제공하며, LLMs의 중국어 중의성 연구를 강화하기 위한 토대를 마련합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기