arXiv논문2026. 06. 08. 10:32

가려진 이점: LLM의 문화적 지식에 대한 현지 언어 접근성 규명

요약

LLM이 문화적 지식에 접근할 때 영어와 현지 언어 중 어느 쪽이 유리한지 분석한 연구입니다. IRT 모델을 통해 언어 숙련도와 지식 접근성을 분리하여 분석한 결과, 숙련도 차이를 고려하면 현지 언어가 문화 지식 접근에 더 유리함을 밝혀냈습니다.

핵심 포인트

단순 정확도는 언어 숙련도와 지식 접근성을 혼동할 수 있음
문화 중립적 질문에서는 영어의 우위가 나타남
숙련도 격차를 보정하면 현지 언어가 지식 접근에 더 유리함
현지 언어 성능이 낮아도 문화적 지식은 높을 수 있음

대규모 언어 모델 (Large language models, LLMs)은 다양한 언어에 걸쳐 문화적 맥락이 담긴 질문에 답하는 데 점점 더 많이 사용되고 있지만, 현지 문화 지식에 접근할 때 영어와 현지 언어 중 어느 쪽이 더 유리한지는 여전히 불분명합니다. 기존의 평가 방식은 두 가지 주요 한계에 직면해 있습니다. 많은 평가가 문화적 지식이 자연스럽게 나타나는 방식을 반영하지 못할 수 있는 병렬 템플릿 기반 질문에 의존하며, 단순 정확도 (raw accuracy)는 일반적인 언어 숙련도 (language proficiency)와 언어 조건부 지식 접근성 (language-conditioned knowledge access)을 혼동합니다. 우리는 지역 벤치마크와 현지 소스에서 수집한 실제 문화 질문을 기반으로 구축된 통제된 프레임워크를 통해 이러한 문제를 해결합니다. 질문 유형 (문화 중립적 vs. 문화 특화적)과 질의 언어 (영어 vs. 현지 언어)를 교차시키고, 공유된 1PL 문항 반응 이론 (item response theory, IRT) 모델을 사용하여 능력을 추정함으로써, 숙련도와 현지화된 지식 접근성을 분리합니다. 13개의 지역과 약 80개의 모델을 대상으로 조사한 결과, 문화 중립적 질문에서는 일관된 영어의 우위가 발견되었으며, 이는 더 강력한 영어 숙련도를 나타냅니다. 그러나 이러한 숙련도 격차를 고려한 후에는, 거의 모든 지역-모델 설정에서 현지 언어가 지식 접근성 측면에서 긍정적인 이점을 보이는 것으로 나타났습니다. 이러한 이점은 단순 정확도에서는 종종 가려지지만, 프런티어 (frontier) 모델, 지역 정렬 (regionally aligned) 모델 또는 언어 적응 (language-adapted) 모델에서는 더 명확하게 드러납니다. 우리의 연구 결과는 현지 언어 성능이 낮다고 해서 반드시 문화적 지식이 부족함을 의미하는 것은 아니라는 점을 시사합니다. 오히려 현지 문화 지식은 현지 언어를 통해 더 잘 접근할 수 있지만, 제한된 언어 숙련도로 인해 숨겨져 있을 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

가려진 이점: LLM의 문화적 지식에 대한 현지 언어 접근성 규명

요약

핵심 포인트

댓글