대규모 언어 모델(LLM)의 중국어 중의성 이해 능력 평가

언어적 중의성 (Linguistic ambiguity)은 대규모 언어 모델 (LLMs)의 강건성 (robustness)에 매우 중요하지만, 기존 연구는 주로 영어에 집중되어 있으며 중국어에 대한 관심은 제한적이었습니다. 기존의 중국어 중의성 데이터셋 (예: CHAmbi)은 확장성 (scalability)이 떨어진다는 단점이 있습니다. 잠재적 중의성 (Potential Ambiguity, PA) 이론에 기반하여, 우리는 CHA-Gen을 구축하기 위한 반자동 파이프라인을 설계했습니다. 이는 18개의 잠재적 중의성 구조에 걸쳐 5,712개의 문장 (중의적 문장 2,414개, 비중의적 문장 3,298개)으로 구성된 최초의 PA 이론 기반 중국어 중의성 데이터셋입니다. 직접 질의 및 기계 번역 (machine translation)을 통해 LLMs (예: Gemma 3, Qwen 2.5/3 시리즈)를 평가한 결과, LLMs는 중의성 탐지 (ambiguity detection)에 어려움을 겪는 것으로 나타났습니다 (생각의 사슬 (CoT) 프롬프팅을 통해 개선됨). Qwen3-32B의 CoT 추론 과정을 분석한 결과, 세 가지 공통적인 실패 모드인 중의성 맹목 (ambiguity blindness), 잘못된 귀인 (misattribution), 그리고 성급한 해결 (premature resolution)이 발견되었습니다. 의미론적 엔트로피 (semantic entropy) 지표를 이용한 불확실성 정량화 (uncertainty quantification) 결과, 중의적 문장에서 더 높은 불확실성이 나타났습니다. 또한, 지시어 튜닝 (instruction tuning)은 과잉 확신 (overconfidence)을 유발하는 반면, 베이스 모델 (Base models)은 의미론적 다양성 (semantic diversity)을 더 잘 포착합니다. 우리는 더 나아가 모델들이 지배적인 해석 (dominant interpretations)에 편향되는 경향이 있음을 관찰했습니다. 본 연구는 중국어 중의성 코퍼스 (corpus)를 위한 확장 가능한 접근 방식과 LLMs의 중의성 처리 능력에 대한 통찰을 제공하며, LLMs의 중국어 중의성 연구를 강화하기 위한 토대를 마련합니다.

Insights

대규모 언어 모델(LLM)의 중국어 중의성 이해 능력 평가

요약

핵심 포인트

댓글

평범한 밀레니얼 세대도 백만장자로 은퇴할 수 있을까? Vanguard의 새로운 수치가 주는 단서

Greencore, 판매량 증가에 따라 이익 전망치 상향

Cava 주가의 하락은 매력적이지만, 메뉴에 숨겨진 함정이 있다

Jensen Huang, 미국 기업들이 중국 AI 모델을 사용해야 한다고 언급

평범한 밀레니얼 세대도 백만장자로 은퇴할 수 있을까? Vanguard의 새로운 수치가 주는 단서

Greencore, 판매량 증가에 따라 이익 전망치 상향

Cava 주가의 하락은 매력적이지만, 메뉴에 숨겨진 함정이 있다

Jensen Huang, 미국 기업들이 중국 AI 모델을 사용해야 한다고 언급