SEA-NLI: 동남아시아 문화적 이해를 들여다보는 렌즈로서의 자연어 추론 (Natural Language Inference)
요약
동남아시아 문화권의 이해도를 측정하기 위한 새로운 NLI 벤치마크인 SEA-NLI를 소개합니다. 8개국 언어를 대상으로 실험한 결과, 기존 모델들이 문화적 지식 부족으로 인해 지식 집약적 분야에서 낮은 성능을 보임을 확인했습니다.
핵심 포인트
- 동남아시아 8개국 언어를 포함한 네이티브 NLI 벤치마크 SEA-NLI 제안
- 기존 LLM들이 동남아시아 문화적 맥락에서 낮은 성능을 보임
- 지식 집약적 카테고리에서 특히 성능 저하가 두드러짐
- 문화 인지 프롬프팅이 성능 향상에 효과적임을 입증
Frontier LLM (거대언 언어 모델)들은 서구권 맥락에서는 뛰어난 성능을 보이지만, 동남아시아 (SEA)와 같이 과소 대표된 문화권에 대해서는 여전히 테스트가 부족한 상태입니다. 기존의 NLI (자연어 추론) 벤치마크는 대부분 서구 중심적이거나, 번역에 의존하거나, 단일 언어로 구성되어 있어 문화적 근거를 둔 추론 능력을 측정하는 데 한계가 있습니다. 우리는 원어민들에 의해 검증되었으며, 영어 및 지역 고유 언어로 동남아시아 8개국을 아우르는 네이티브 방식의 문화적 근거를 둔 NLI 벤치마크인 SEA-NLI를 소개합니다. 17개의 인코더 (Encoder) 및 디코더 (Decoder) 모델을 대상으로 실험한 결과, 모든 모델에서 낮은 성능이 관찰되었으며, 특히 언어 (Languages) 및 과학 기술 (Science and Technology)과 같이 지식 집약적인 카테고리에서 더욱 두드러졌습니다. 우리의 분석에 따르면, 실패 사례들은 주로 동남아시아 문화 지식의 부재에서 기인합니다. 동남아시아에 맞춤화된 모델과 문화 인지 프롬프팅 (Culture-aware prompting)은 성능을 향상시키는 반면, CoT (Chain-of-Thought, 사고의 사슬) 프롬프팅은 제한적인 이점만을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기