MultiSynt/MT: 36개 언어로 번역된 1조 개 토큰 규모의 다중 병렬 사전 학습 데이터
요약
36개 유럽 언어로 구성된 4.8조 토큰 규모의 오픈 합성 병렬 코퍼스인 MultiSynt/MT를 소개합니다. 이 데이터셋은 기존 네이티브 데이터 대비 훨씬 적은 토큰으로도 대등하거나 더 높은 성능의 다국어 LLM 학습을 가능하게 합니다.
핵심 포인트
- 36개 유럽 언어 대상 4.8조 토큰 규모의 합성 병렬 코퍼스 구축
- 기존 HPLT 2.0 대비 약 72% 적은 토큰으로 유사 성능 달성
- 동일 학습 예산 조건에서 HPLT 2.0 대비 성능 약 15% 향상
- LLM-as-judge를 통한 번역 유창성 평가의 중요성 확인
- 다국어 사전 학습 및 평가 연구를 위한 행 정렬 데이터 공개
오픈 웹 스케일 (Open web-scale) 사전 학습 코퍼스 (corpora)는 여전히 영어에 집중되어 있어, 다국어 LLM (Large Language Model) 개발을 제한하고 있습니다. 우리는 Tower+ 및 OPUS-MT/HPLT-MT 시스템을 사용하여 1,000억 개의 고품질 Nemotron-CC 토큰을 번역하여 생성한, 36개 유럽 언어에 걸쳐 약 4.8조 개의 타겟 언어 토큰을 포함하는 오픈 합성 병렬 코퍼스 (synthetic parallel corpus)인 MultiSynt/MT를 소개합니다. 많은 중저자원 (medium- and lower-resource) 유럽 언어의 경우, 이는 공개적으로 사용 가능한 가장 큰 사전 학습 리소스입니다. 광범위한 다국어 벤치마크 스위트 (benchmark suite)에서, MultiSynt/MT로 학습된 참조 LLM은 네이티브 데이터 (native-data) 베이스라인인 HPLT 2.0의 최종 점수에 도달하면서도 사전 학습 토큰을 약 72% 적게 사용하였으며, 동일한 1,000억 토큰 학습 예산 조건에서는 HPLT 2.0을 상대적으로 약 15% 상회하는 성능을 보였습니다. 우리의 분석은 또한 평가의 사각지대를 식별합니다. 표준 객관식 벤치마크는 번역 품질의 차이를 놓치지만, 유창성에 민감한 LLM-as-judge (LLM 기반 평가) 방식은 학습된 LLM에서 이를 명확하게 복구해 냅니다 (MultiSynt 자체에는 유창성 결핍이 없음). 또한 노르웨이어의 관용적이고 문화적으로 뿌리 깊은 작업들은 여전히 네이티브 데이터에 의해 더 잘 수행됩니다. 우리는 다국어 사전 학습 데이터 및 평가에 대한 통제된 연구를 지원하기 위해 여러 시스템으로부터 행 정렬된 (row-aligned) 번역을 포함한 코퍼스를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기