arXiv논문2026. 05. 27. 12:03

BhashaSetu: 저자원 기계 번역을 위한 데이터 중심 접근 방식

요약

저자원 언어인 마라티어를 위한 고품질 영어-마라티어 병렬 데이터셋 BhashaSetu를 제안합니다. 278만 개의 문장 쌍과 형태소 분석 정보를 포함하며, 데이터 전처리와 미세 조정 실험을 통해 데이터 중심 접근 방식의 중요성을 입증했습니다.

핵심 포인트

278만 개의 문장 쌍을 포함한 BhashaSetu 데이터셋 공개
뉴스, 의료, 문학 등 다양한 도메인의 이질적 데이터 수집
코퍼스 수준의 중복 제거가 번역 품질 향상에 핵심적 역할 수행
LoRA를 활용한 NLLB-200 모델의 매개변수 효율적 미세 조정

우리는 저자원 신경 기계 번역 (NMT) 분야의 지속적인 데이터 한계 문제를 해결하기 위해, 언어학적으로 풍부한 영어-마라티어 (English--Marathi) 병렬 데이터셋인 BhashaSetu를 제시합니다. 9,500만 명 이상의 사람들이 사용하는 마라티어는 다양한 도메인에 걸친 고품질 병렬 코퍼스 (parallel corpora)에서 여전히 과소 대표되어 있습니다. 우리의 데이터셋은 뉴스, 정치, 의료, 문학, 문화를 포함한 이질적인 출처로부터 수집된 278만 개의 문장 쌍으로 구성되어 있으며, 형태소 인식 분석 (morphology-aware analysis)을 지원하기 위해 어간 추출 (stemmed) 및 표제어 추출 (lemmatized) 표현을 포함합니다. 우리는 BLEU, spBLEU, chrF++, TER 지표를 사용하여 여러 최첨단 (state-of-the-art) 번역 모델을 벤치마킹하였으며, LoRA를 사용하여 NLLB-200-distilled-600M의 매개변수 효율적 미세 조정 (parameter-efficient fine-tuning)을 수행했습니다. 우리의 절제 연구 (ablation study)를 통한 주요 발견은 다음과 같습니다: 코퍼스 수준의 중복 제거 (corpus-level deduplication)는 다운스트림 품질에 기여하는 단일 최대 전처리 요소이며 (이를 제거할 경우 성능이 1.17 BLEU 및 2.21 chrF++ 감소함), 이는 규율 있는 교차 출처 코퍼스 위생 (cross-source corpus hygiene)이 저자원 및 형태학적으로 풍부한 언어를 위한 저비용 고효율의 개입임을 입증합니다. 이 데이터셋은 재현 가능하고 언어학적 정보에 기반한 저자원 NMT 연구를 촉진하기 위해 공개적으로 배포됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

BhashaSetu: 저자원 기계 번역을 위한 데이터 중심 접근 방식

요약

핵심 포인트

댓글