MultiSynt/MT: 36개 언어로 번역된 1조 개 토큰 규모의 다중 병렬 사전 학습 데이터

오픈 웹 스케일 (Open web-scale) 사전 학습 코퍼스 (corpora)는 여전히 영어에 집중되어 있어, 다국어 LLM (Large Language Model) 개발을 제한하고 있습니다. 우리는 Tower+ 및 OPUS-MT/HPLT-MT 시스템을 사용하여 1,000억 개의 고품질 Nemotron-CC 토큰을 번역하여 생성한, 36개 유럽 언어에 걸쳐 약 4.8조 개의 타겟 언어 토큰을 포함하는 오픈 합성 병렬 코퍼스 (synthetic parallel corpus)인 MultiSynt/MT를 소개합니다. 많은 중저자원 (medium- and lower-resource) 유럽 언어의 경우, 이는 공개적으로 사용 가능한 가장 큰 사전 학습 리소스입니다. 광범위한 다국어 벤치마크 스위트 (benchmark suite)에서, MultiSynt/MT로 학습된 참조 LLM은 네이티브 데이터 (native-data) 베이스라인인 HPLT 2.0의 최종 점수에 도달하면서도 사전 학습 토큰을 약 72% 적게 사용하였으며, 동일한 1,000억 토큰 학습 예산 조건에서는 HPLT 2.0을 상대적으로 약 15% 상회하는 성능을 보였습니다. 우리의 분석은 또한 평가의 사각지대를 식별합니다. 표준 객관식 벤치마크는 번역 품질의 차이를 놓치지만, 유창성에 민감한 LLM-as-judge (LLM 기반 평가) 방식은 학습된 LLM에서 이를 명확하게 복구해 냅니다 (MultiSynt 자체에는 유창성 결핍이 없음). 또한 노르웨이어의 관용적이고 문화적으로 뿌리 깊은 작업들은 여전히 네이티브 데이터에 의해 더 잘 수행됩니다. 우리는 다국어 사전 학습 데이터 및 평가에 대한 통제된 연구를 지원하기 위해 여러 시스템으로부터 행 정렬된 (row-aligned) 번역을 포함한 코퍼스를 공개합니다.

Insights

MultiSynt/MT: 36개 언어로 번역된 1조 개 토큰 규모의 다중 병렬 사전 학습 데이터

요약

핵심 포인트

댓글

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침