arXiv논문2026. 06. 05. 14:06

다국어 전이 학습 (Multilingual Transfer Learning)을 통한 영어-프라크리트 (English-to-Prakrit) 기계

요약

IndicTrans2 모델을 활용하여 저자원 언어인 영어-프라크리트 기계 번역을 연구했습니다. 별도의 아키텍처 수정 없이 언어 태그 매핑을 통해 다국어 모델을 적응시키는 방법을 제안합니다.

핵심 포인트

언어 태그 매핑을 통한 저자원 언어 적응 방식 제안
토크나이저 및 아키텍처 수정 없는 효율적 전이 학습
마하라슈트리 프라크리트 코퍼스를 통한 성능 향상 확인
데이터 부족 및 방언 불일치에 따른 한계점 식별

우리는 대상 언어가 IndicTrans2에서 지원되지 않는 저자원 (low-resource) 환경에서의 영어-프라크리트 (English-to-Prakrit) 기계 번역을 연구합니다. 우리는 토크나이저 (tokenizer), 어휘 (vocabulary), 또는 아키텍처 (architecture)를 수정하지 않고, 프라크리트 (Prakrit)를 힌디어 언어 태그 (hin_Deva)에 매핑함으로써 다국어 모델 (multilingual model)을 적응시킵니다. 1,474쌍의 마하라슈트리 프라크리트 (Maharashtri Prakrit) 병렬 코퍼스 (parallel corpus)를 사용하고 20개의 샘플로 구성된 아르다마가디 (Ardhamagadhi) 테스트 세트에서 평가한 결과, 튜닝되지 않은 베이스라인 (baseline) 대비 코퍼스 BLEU 점수의 향상을 보고합니다. 결과는 스크립트 호환 언어 라우팅 (script-compatible language routing)이 지원되지 않는 고전 언어로의 실행 가능한 전이 (transfer)를 가능하게 할 수 있음을 나타내는 동시에, 데이터 부족 및 방언 불일치 (dialect mismatch)로 인한 한계를 강조합니다. 우리의 코드와 학습된 모델은 추가적인 탐색을 위해 공개되었습니다: https://github.com/D3v1s0m/indictrans2-prakrit-mt.

AI 자동 생성 콘텐츠

원문 바로가기

다국어 전이 학습 (Multilingual Transfer Learning)을 통한 영어-프라크리트 (English-to-Prakrit) 기계

요약

핵심 포인트

댓글