MSQA: 네이티브 소싱 기반의 다국어 및 다문화 SimpleQA 벤치마크

다국어 유창성(Multilingual fluency)은 종종 더 강력한 가정을 불러일으킵니다. 즉, 사용자의 언어로 말할 수 있는 모델은 그 언어에 인코딩된 문화 또한 이해해야 한다는 가정입니다. 우리는 이를 '문화적 정렬의 환상 (Illusion of Cultural Alignment)'이라고 부릅니다. 이 가정을 직접 테스트하기 위해, 우리는 11개 언어 그룹, 5개 문화 차원, 3개 난이도 계층에 걸쳐 네이티브 소싱(natively sourced)된 1,064개의 질문으로 구성된 벤치마크인 MSQA를 소개합니다. 번역된 벤치마크와 달리, MSQA는 현지 기반 지식(locally grounded knowledge)을 목표로 하며 영어 중심의 교차 언어 전이(cross-lingual transfer)로 인한 지름길(shortcuts)을 줄입니다. 18개의 LLM을 평가한 결과, 상당한 문화적 저하와 뚜렷한 '지역성 효과 (Locality Effect)'를 발견했습니다. 즉, 문화적 역량은 일반적인 추론 능력보다 사전 학습(pre-training) 노출 정도를 더 밀접하게 따릅니다. 우리는 더 나아가 일반적인 추론 시간(inference-time) 해결책들이 이 환상을 해소하지 못한다는 것을 보여줍니다. 모델들은 익숙하지 않은 문화적 질문에 대해 여전히 과잉 확신(overconfident)을 유지하며, 반복적인 샘플링(sampling)은 신뢰할 수 있는 정확성보다는 불안정한 결과를 초래하고, 검색 증강(retrieval augmentation)은 롱테일(long-tail) 사실에 대해 불균등하게 도움이 됩니다. 이러한 발견은 문화적 정렬이 다국어 능력만으로 추론될 수 없으며, 추론 시점의 캘리브레이션(calibration), 샘플링(sampling) 또는 검색(retrieval)보다 더 깊은 개입이 필요함을 나타냅니다.

Insights

MSQA: 네이티브 소싱 기반의 다국어 및 다문화 SimpleQA 벤치마크

요약

핵심 포인트

댓글

AI의 자기 검수는 내부 식구에게 관대하다. 별도 계통 AI(codex/GPT/Gemini)에게 채점하게 하는 OSS 「loop-verify」

Vertigo Vertigo: 예측적 AI 더블을 통한 영화적 이상향의 재구성

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

Vertigo Vertigo: 예측적 AI 더블을 통한 영화적 이상향의 재구성

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian