ChLogic: 중국어 표현에서의 논리적 추론 강건성 평가
요약
ChLogic은 영어와 중국어 간의 논리적 추론 강건성을 평가하기 위해 구축된 새로운 벤치마크입니다. Qwen3, Ministral, GLM 모델을 대상으로 실험한 결과, 언어 간 성능 격차가 존재하며 번역이 항상 성능 향상을 보장하지 않음을 확인했습니다.
핵심 포인트
- 영어-중국어 정렬 기반의 논리 추론 벤치마크 ChLogic 소개
- 일반, 난이도 높은 문제, 중국어 전용 세트 등 3가지 데이터셋 구성
- Qwen3, Ministral, GLM 모델에서 영어-중국어 간 성능 격차 발견
- 역번역이 특정 모델 및 난이도에서 성능을 저하시킬 수 있음 확인
대규모 언어 모델(Large language models)은 표준화된 논리적 추론 벤치마크에서 점점 더 우수한 성능을 보이고 있지만, 이러한 능력이 영어를 넘어에서도 강건하게 유지되는지는 불분명합니다. 우리는 동일한 잠재적 논리 구조(latent logical structure)가 영어와 다양한 중국어 표면 실현(surface realizations)으로 표현될 때 모델이 논리적 추론 성능을 유지하는지 테스트하는 영어-중국어 정렬 벤치마크인 ChLogic을 소개합니다. 정식 논리 템플릿(formal logical templates)을 기반으로 구축된 이 벤치마크는 세 가지 데이터 세트를 포함합니다: (i) 9개의 템플릿 제품군에 걸친 60개의 일반 명제(General Propositions)에서 파생된 일반 정렬 세트(General aligned set), (ii) 40개의 어려운 문제(Difficult Problems)에서 파생된 어려운 정렬 세트(Difficult aligned set), (iii) 15가지 언어 특이적 현상 유형을 다루는 중국어 전용 세트(Chinese-only set). 각 정렬된 항목은 하나의 영어 참조 표현과 다섯 개의 중국어 실현을 쌍으로 묶습니다. Qwen3, Ministral, 그리고 GLM 모델에 대한 실험 결과, 지속적인 영어-중국어 성능 격차가 드러났습니다. 표준 중국어를 영어로 역번역(Back-translation)하는 것은 일반 정렬 세트의 성능을 종종 향상시키지만, 어려운 정렬 세트에서는 혼합된 효과를 나타내며, 특히 Qwen3-32B와 GLM-5.1은 번역 후 성능이 더 저하되었습니다. 이러한 결과는 중국어 표면 실현, 번역 아티팩트(translation artifacts), 그리고 모델별 동작이 다국어 논리적 추론에 공동으로 영향을 미친다는 것을 나타냅니다. 전반적으로, ChLogic은 다국어 추론의 강건성을 위한 유용한 스트레스 테스트를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기