arXiv논문2026. 06. 25. 11:30

저자원 Tangkhul-English를 위한 신경망 기계 번역 (Neural Machine Translation)

요약

인도 마니푸르 지역의 저자원 언어인 Tangkhul-English 간의 신경망 기계 번역 연구를 다룹니다. ByT5-large와 mT5-small 모델을 활용하여 성능을 비교하고, 데이터 부족 및 도메인 편향 문제를 분석합니다.

핵심 포인트

ByT5-large 기반 시스템이 높은 BLEU 및 COMET 점수 달성
저자원 언어인 Tangkhul을 위한 NLP 인프라 구축 시도
라틴 문자 발음 구별 부호 및 도메인 편향 문제 논의
데이터 다양화 및 도메인 적응을 통한 향후 개선 방향 제시

우리는 Tangkhul-English (nmf-en) 언어 쌍에 대한 저자원 기계 번역 (low-resource machine translation) 연구를 제시합니다. Tangkhul은 주로 인도 마니푸르(Manipur)에서 사용되는 심각한 저자원 티베트-버만 (Tibeto-Burman) 언어로, 이전의 자연어 처리 (NLP) 인프라가 사실상 전무합니다. 우리는 두 가지 시스템을 설명합니다: (1) 38,336개의 Tangkhul-English 병렬 문장 쌍으로 미세 조정 (fine-tuned)된 ByT5-large 기반의 기본 시스템, 그리고 (2) 동일한 코퍼스 (corpus)로 미세 조정된 mT5-small 기반의 대조 시스템 (contrastive system). 우리의 기본 ByT5-large 시스템은 3,856개 문장으로 구성된 홀드아웃 테스트 세트 (held-out test set)에서 코퍼스 BLEU 점수 39.97, chrF++ 58.07, BERTScore F1 0.8104, 그리고 COMET (wmt22-comet-da) 0.7302를 달성했습니다. 우리는 더 나아가 Tangkhul의 라틴 문자 발음 구별 부호 (Latin-script diacritics)에 특화된 철자법적 과제, 우리 훈련 코퍼스(성경 텍스트, 이야기, 대화 데이터로 구성됨)의 도메인 편향 (domain bias), 그리고 데이터 다양화 및 도메인 적응 (domain adaptation)을 통한 향후 개선 방안에 대해 논의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

저자원 Tangkhul-English를 위한 신경망 기계 번역 (Neural Machine Translation)

요약

핵심 포인트

댓글