arXiv논문2026. 06. 05. 14:06

CHALIS: 까다로운 시나리오에서의 언어 식별을 위한 도전적 데이터셋

요약

친척 언어와 철자 노이즈 등 까다로운 시나리오를 해결하기 위한 새로운 언어 식별 벤치마크 데이터셋인 CHALIS를 제안합니다. 기존 언어 식별 시스템들이 저자원 언어와 음차된 입력값에서 겪는 한계를 입증하며, 관련 리소스를 Hugging Face에 공개했습니다.

핵심 포인트

친척 언어 쌍(Czech/Slovak 등)을 포함한 벤치마크 제시
철자 노이즈, 음차, 호모글리프 공격 등 다양한 노이즈 시뮬레이션
기존 언어 식별 시스템의 저자원 언어 및 음차 대응 한계 입증
Hugging Face를 통해 데이터셋 공개

우리는 언어 식별 (Language Identification)의 어려운 사례인 친척 언어 (Cousin languages) 및 철자 노이즈 (Orthographic noise)를 해결하기 위해 명시적으로 설계된 새로운 벤치마크 데이터셋인 CHALIS (Challenging Language Identification Samples)를 제시합니다. 우리의 데이터셋은 두 부분으로 구성됩니다. 첫째, 상호 이해 가능한 언어 쌍 (Czech/Slovak, Spanish/Catalan, Portuguese/Galician, Danish/Norwegian) 간에 공유되는 문장들을 수집했습니다. 두 번째 부분은 철자 노이즈를 테스트합니다. 우리는 여러 스크립트 (Scripts) 간에 텍스트를 음차 (Transliterate)하고, 발음 구별 부호 (Diacritics)를 제거하며, 호모글리프 공격 (Homoglyph attacks)을 시뮬레이션하고, 인터넷 속어 (Internet slang)를 사용합니다. 우리는 CHALIS를 통해 널리 사용되는 네 가지 언어 식별 시스템을 평가하였으며, 모든 시스템이 이러한 시나리오, 특히 친척 쌍 내의 저자원 언어 (Lower-resource languages) 및 음차된 입력값에서 상당히 어려움을 겪는다는 것을 입증했습니다. 해당 리소스는 https://huggingface.co/datasets/michal-tichy/CHALIS 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CHALIS: 까다로운 시나리오에서의 언어 식별을 위한 도전적 데이터셋

요약

핵심 포인트

댓글