MSQA: 네이티브 소싱 기반의 다국어 및 다문화 SimpleQA 벤치마크
요약
다국어 유창성이 문화적 이해로 직결되지 않는다는 '문화적 정렬의 환상'을 지적하며, 네이티브 소싱 기반의 새로운 벤치마크 MSQA를 제안합니다. 18개 LLM 평가 결과, 문화적 역량은 추론 능력보다 사전 학습 데이터의 노출 정도에 더 큰 영향을 받는 것으로 나타났습니다.
핵심 포인트
- 네이티브 소싱 기반의 다국어/다문화 벤치마크 MSQA 공개
- 언어 능력과 문화적 이해 사이의 불일치(문화적 정렬의 환상) 확인
- 문화적 역량은 일반 추론보다 사전 학습 노출도에 더 의존함
- 기존의 추론 시점 해결책(RAG, 샘플링 등)의 한계 지적
다국어 유창성(Multilingual fluency)은 종종 더 강력한 가정을 불러일으킵니다. 즉, 사용자의 언어로 말할 수 있는 모델은 그 언어에 인코딩된 문화 또한 이해해야 한다는 가정입니다. 우리는 이를 '문화적 정렬의 환상 (Illusion of Cultural Alignment)'이라고 부릅니다. 이 가정을 직접 테스트하기 위해, 우리는 11개 언어 그룹, 5개 문화 차원, 3개 난이도 계층에 걸쳐 네이티브 소싱(natively sourced)된 1,064개의 질문으로 구성된 벤치마크인 MSQA를 소개합니다. 번역된 벤치마크와 달리, MSQA는 현지 기반 지식(locally grounded knowledge)을 목표로 하며 영어 중심의 교차 언어 전이(cross-lingual transfer)로 인한 지름길(shortcuts)을 줄입니다. 18개의 LLM을 평가한 결과, 상당한 문화적 저하와 뚜렷한 '지역성 효과 (Locality Effect)'를 발견했습니다. 즉, 문화적 역량은 일반적인 추론 능력보다 사전 학습(pre-training) 노출 정도를 더 밀접하게 따릅니다. 우리는 더 나아가 일반적인 추론 시간(inference-time) 해결책들이 이 환상을 해소하지 못한다는 것을 보여줍니다. 모델들은 익숙하지 않은 문화적 질문에 대해 여전히 과잉 확신(overconfident)을 유지하며, 반복적인 샘플링(sampling)은 신뢰할 수 있는 정확성보다는 불안정한 결과를 초래하고, 검색 증강(retrieval augmentation)은 롱테일(long-tail) 사실에 대해 불균등하게 도움이 됩니다. 이러한 발견은 문화적 정렬이 다국어 능력만으로 추론될 수 없으며, 추론 시점의 캘리브레이션(calibration), 샘플링(sampling) 또는 검색(retrieval)보다 더 깊은 개입이 필요함을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기