본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 17:12

Linear Semantic Segmentation for Low-Resource Spoken Dialects

요약

기존 의미 분할 모델들은 주로 고자본 텍스트 자료에 기반하여 개발되어, 비공식적 문법이나 코드스위칭이 특징인 저자본 구어체 변이에 적용하는 데 한계가 있습니다. 본 논문은 일상 통화, 팟캐스트 등 다양한 장르의 아랍어 대화형 데이터를 포함한 새로운 다중 장르 벤치마크를 제시합니다. 이를 통해 MSA(Modern Standard Arabic) 뉴스에서 잘 작동하던 모델이 방언 음성에서는 성능 저하를 보임을 입증하고, 지역적 의미 일관성과 담론 불연속성에 강건한 새로운 분할 모델을 제안하여 그 우수성을 입증했습니다.

핵심 포인트

  • 기존의 의미 분할(Semantic Segmentation) 모델은 고자본 텍스트 데이터에 의존하여 저자본 구어체 변수에 취약하다.
  • 새로운 다중 장르 아랍어 대화형 벤치마크(1000개 이상 샘플)를 구축하여, 일상 통화, 코드스위칭 등 다양한 비공식적 담론 구조를 포괄한다.
  • MSA 뉴스에서 높은 성능을 보이던 모델도 방언 음성 데이터에서는 성능 저하가 발생함을 확인했다.
  • 지역적 의미 일관성과 담론 불연속성에 강건한 새로운 분할 모델을 제안했으며, 이는 비뉴스 장르의 방언 데이터에서 강력한 베이스라인을 능가한다.

의미 분할 (Semantic segmentation) 은 담론 분석의 핵심 요소이나, 기존 모델은 주로 고자본 텍스트 자료에서 개발 및 평가되어 저자본 구어체 변이에 대한 효과성을 제한한다. 특히 아랍어 방언은 비공식적 문법, 코드스위칭 (code-switching), 그리고 표준 분할 접근법을 도전을 제기하는 약하게 표시된 담론 구조를 특징으로 한다. 본 논문에서는 대화형 아랍어의 의미 분할을 위한 새로운 다중 장르 벤치마크 (1000 개 이상의 샘플) 를 소개한다. 이 벤치마크는 일상의 전화 통화, 코드스위칭 팟캐스트, 방송 뉴스, 소설의 표현적 대화 등을 포함하며, 원어 아랍어 어원가들이 주석 및 검증하였다. 이 벤치마크를 사용하여 우리는 MSA 뉴스 장르에서 잘 수행하는 분할 모델이 방언 전사된 음성에서는 성능이 저하함을 보여준다. 또한, 지역적 의미 일관성과 담론 불연속성에 대한 견고성을 목표로 하는 분할 모델을 제안하며, 이는 비뉴스 장르의 방언 데이터에서 강력한 베이스라인을 일관되게 능가한다. 이 벤치마크 및 접근법은 다른 저자본 구어 언어에도 일반화된다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0