본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 27. 19:53

교차 언어적 전이와 비지도 군집화를 통한 저자원 반투어에서의 영영 (Zero-Shot) 형태론적 발견

요약

본 논문은 교차 언어적 전이 학습과 비지도 군집화 기법을 결합하여 데이터가 부족한(저자원) 반투어 언어의 형태론적 특징을 자동으로 발견하는 방법을 제시합니다. 91개의 라벨만 가진 Giriama 언어에 이 파이프라인을 적용한 결과, 기존에 알려지지 않았던 두 가지 새로운 형태론적 패턴과 높은 정확도의 어간화 및 분절 결과를 얻었습니다. 특히 스와힐리어 등 고자원 언어의 지식을 활용하여 저자원 언어의 구조를 분석함으로써 효과적인 형태론적 문서화를 지원할 수 있음을 입증했습니다.

핵심 포인트

  • 교차 언어적 전이 학습과 비지도 군집화 결합을 통해 저자원 반투어 언어의 형태론적 특징 발견 가능.
  • Giriama 언어에 적용하여 91개의 라벨만으로 새로운 두 가지 형태론적 패턴(a- 접두어 변형, contracted k'- 접두어)을 성공적으로 식별함.
  • Swahili 등 고자원 언어 지식을 활용한 전이 학습은 친유사어 탐지에서 강점을 보이며, 군집화는 독특한 언어별 혁신 발견에 기여함.
  • 최적의 성능을 위해 두 방법을 가중치 투표(weighted voting)로 결합하여 상호보완적인 시너지를 창출함.

우리는 교차 언어적 전이 학습 (cross-lingual transfer learning) 과 비지도 군집화 (unsupervised clustering) 를 결합하여 저자원 반투어 (low-resource Bantu languages) 의 형태론적 특징을 발견하는 방법을 제시합니다. 라벨이 붙은 패러다임 (paradigms) 이 단 91 개뿐인 Giriama (nyf) 언어에 적용된 우리의 파이프라인은 2,455 개의 단어에 대한 명사 계급 할당 (noun class assignments) 을 발견하고, 이전에 문서화되지 않았던 두 가지 형태론적 패턴을 확인했습니다. 이는 Class 2 의 a- 접두어 변형 (vowel coalescence - 인접한 두 모음의 합일 - wa- 의 경우 95.1% 일관성) 과 contracted k'- 접두어 (98.5% 일관성) 입니다. 알려진 Giriama 동사 패러다임 444 개에 대한 외부 검증은 78.2% 의 어간화 (lemmatization) 정확도를 확인했으며, v3 코퍼스 확장을 통해 19,624 개의 단어 (9,014 개의 고유 어근) 를 달성했을 때 모든 주요 단어 계급에서 97.3% 의 분절 (segmentation) 및 86.7% 의 어간화 비율을 얻었습니다. 우리는 Swahili 에서의 전이 학습과 비지도 군집화의 앙상블을 가중치 투표 (weighted voting) 로 결합하여 상보적인 강점을 활용합니다: 전이는 약 60% 의 어휘 중복도를 활용하여 친유사어 탐지 (cognate detection) 에서 우수하고, 군집화는 전이가 보이지 않는 언어별 혁신을 발견합니다. 우리는 저자원 반투어의 형태론적 문서화를 지원하기 위해 모든 코드와 발견된 어휘를 공개합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0