본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 27. 19:51

현대 데이터로부터 방어 언어의 역사적 어휘 구조 신경망 복원

요약

본 연구는 현대 형태론 데이터만으로 역사적인 재구성과 일관된 교차언어 어휘 구조를 복원할 수 있는지 탐구합니다. BantuMorph v7 트랜스포머 모델을 사용하여 14개 동부 및 남부 방어 언어를 분석한 결과, 명사 및 동사 기본형에서 광범위하게 공유되는 후보들을 식별했습니다. 이 후보들은 기존의 역사적 어휘 재구성 데이터베이스와 비교했을 때 높은 일치율(명사 90.9%, 동사 12개)을 보이며, 이는 현대 언어 자료만으로도 프로토-방어 형태를 성공적으로 복원할 수 있음을 시사합니다.

핵심 포인트

  • 현대 형태론 데이터는 역사적 어휘 재구성을 위한 강력한 자원이 될 수 있다.
  • BantuMorph v7과 같은 트랜스포머 기반 모델은 다수의 언어에서 공유되는 핵심적인 교차언어 구조를 효과적으로 식별한다.
  • 식별된 명사 및 동사 후보들은 기존의 역사적 어휘 재구성 데이터베이스와 높은 일치성을 보이며, 이는 복원된 프로토-방어 형태가 신뢰할 만함을 입증한다.
  • 교차 모델 검증(NLLB-600M) 결과는 복원된 계통군 그룹화 및 동의어 군집이 언어학적 분류 체계와 일관됨을 보여준다.

우리는 현대 형태론 데이터에만 훈련된 신경 모델이 역사적 재구성과 일관된 교차언어 어휘 구조를 복원할 수 있는지 조사합니다. 방어 형태론 패러다임에 대한 트랜스포머인 BantuMorph v7 을 사용하여, 우리는 14 개의 동부 및 남부 방어 언어를 분석하고 명사 및 동사 기본형 (lemma) 의 인코더 임베딩을 추출하며, 5 개 이상의 언어에서 공유되는 명사 동의어 후보 728 개와 동사 동의어 후보 1,525 개를 식별합니다. 이 후보들을 확립된 역사적 자원인 방어 어휘 재구성 데이터베이스 (BLR3; 재구성된 프로토 방어 형태 4,786 개) 와 ASJP 기본 어휘에 대조하여 평가한 결과, 상위 명사 동의어 후보 11 개 중 10 개 (90.9%) 가 이전에 재구성된 프로토 방어 형태 (*-ntU '사람' (8 개 언어), *gombe '소' (9 개 언어), *mUn (9 개 언어) 포함) 와 일치함을 확인합니다. 동사로 확장하여, *-bon- '보다' 와 *-jIm- '서 있다' 를 포함한 12 개의 동사 동의어가 광범위한 지리적 범위에서 입증된 재구성된 프로토 방어 어근과 일치합니다. 독립적인 번역 모델 (NLLB-600M) 을 사용한 교차 모델 검증을 통해 이러한 패턴을 확인했습니다: 두 모델 모두 확립된 Guthrie 구역 분류와 일관된 동의어 군집 및 계통군 그룹화를 복원합니다 (p < 0.01). 교차언어 명사 계급 분석에서는 모든 13 개의 생산적 계급이 언어 간에 >0.83 의 코사인 유사도를 유지하며, 계급 내 유사도가 계급 간 유사도보다 높습니다 (p < 10^-9). 우리의 데이터셋은 동부 및 남부 방어에 제한되어 있으므로, 이 결과를 프로토 방어와 일관된 공유 방어 어휘 구조를 복원한 것으로 해석하며, 프로토 방어 유산과 후기의 지역적 혁신을 명확히 구별한다고 단정하지 않습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0