HuggingFace헤드라인2026. 05. 06. 05:24

mmBERT: 다국어 모델이 현대 BERT 를 넘어선다

요약

mmBERT는 1,800개 이상의 언어에 걸쳐 3조 토큰 이상으로 훈련된 최첨단 다국어 인코더 모델입니다. 이 모델은 ModernBERT의 효율적인 구조를 기반으로 하면서도, 세 단계에 걸친 체계적인 데이터 학습 전략과 점진적 언어 포함 방식을 도입하여 이전 모델 대비 성능 및 속도를 크게 향상시켰습니다. 특히 고품질 영어 콘텐츠와 광범위한 다국어 커버리지를 결합하고, 훈련 단계별로 마스크 비율을 조정하는 혁신적인 접근 방식을 통해 저자원 언어 학습 능력을 극대화했습니다.

핵심 포인트

mmBERT는 1,800개 이상의 언어를 포괄하며 3조 토큰 이상으로 훈련된 대규모 다국어 인코더입니다.
ModernBERT 구조를 기반으로 하되, Gemma 2 토크나이저와 세 단계의 스케줄링을 통해 성능과 효율성을 개선했습니다.
데이터셋은 고품질 영어(DCLM), 광범위한 다국어 웹 콘텐츠(FineWeb2), 그리고 고자원 언어 집중 데이터(FineWeb2-HQ)를 결합하여 구성되었습니다.
핵심 혁신은 '점진적 언어 포함 전략'으로, 훈련 단계별로 점진적으로 언어를 늘려 저자원 언어의 영향을 최대화하고 데이터 품질을 유지합니다.
훈련 과정에서 마스크 비율(30% → 15% → 5%)을 감소시키는 역 스케줄링을 적용하여 모델이 다양한 표현 학습 기회를 얻도록 했습니다.

이 블로그 포스트는 1800 개 이상의 언어에 걸쳐 3T+ 토큰의 텍스트로 훈련된 최첨단 대규모 다국어 인코더 모델인 mmBERT 를 소개합니다. 이전 다국어 모델에 비해 유의미한 성능 및 속도 향상을 보여주며, XLM-R 을 개선하는 첫 번째 모델이자, 저자원 언어를 효과적으로 학습하기 위한 새로운 전략을 개발했습니다. mmBERT 는 ModernBERT 를 기반으로 하여 매우 빠른 구조를 구축하고, 효율적인 다국어 학습을 가능하게 하는 새로운 구성 요소를 추가했습니다.

모델 자체를 직접 시도해보고 싶으시다면 이 블로그 포스트의 끝에 있는 일부 예제 템플릿이 있습니다!

mmBERT 는 세 가지 다른 훈련 단계에 걸쳐 3T 토큰 이상의 총합으로 구성된 신중하게 큐레이티드 다국어 데이터셋으로 훈련되었습니다. 우리의 훈련 데이터의 기초는 다국어 커버리지와 데이터 품질을 모두 가능하게 하는 세 가지 주요 오픈소스 및 고품질 웹 크롤링입니다:

DCLM 과 Filtered DCLM 은 가장 높은 품질의 영어 콘텐츠를 제공하여 강력한 영어 성능의 골격을 형성합니다 (필터링된 데이터는 Dolmino 에서 유래했습니다). 이 데이터셋은 최첨단 웹 필터링 기술을 나타내며 중요한 구성 요소입니다. 이 데이터의 고품질로 인해 우리는 이전 세대 다국어 인코더 모델보다 훨씬 높은 비율의 영어를 사용합니다 (최대 18%).

FineWeb2 는 1,800 개 이상의 언어를 포괄하는 광범위한 다국어 웹 콘텐츠를 제공합니다. 이 데이터셋은 다양한 언어 계열과 문자 체계에 걸쳐 합리적인 품질 기준을 유지하면서 우리의 광범위한 다국어 커버리지를 가능하게 합니다.

FineWeb2-HQ 는 FineWeb2 의 필터링된 하위 집합으로 20 개의 고자원 언어에 집중합니다. 이 필터링된 버전은 영어 전용 필터링 데이터와 광범위한 다국어 커버리지 사이의 간극을 연결하는 더 높은 품질의 다국어 콘텐츠를 제공합니다.

훈련 데이터는 Dolma, MegaWika v2, ProLong 등 전문 코퍼스도 포함합니다: 코드 저장소 (StarCoder, ProLong), 학술 콘텐츠 (ArXiv, PeS2o), 참고 자료 (위키백과, 교재), 커뮤니티 토론 (StackExchange) 및 지시와 수학적 데이터셋.

우리의 데이터 접근법의 핵심 혁신은 Figure 1 에서 보인 점진적 언어 포함 전략입니다. 각 단계에서 우리는 평탄한 분포 (즉, 균일 분포에 더 가깝게) 에서 점진적으로 샘플링하며 동시에 새로운 언어를 추가합니다. 이는 러시아어와 같은 고자원 언어가 데이터의 높은 비율로 시작 (즉, 9%) 이며 훈련의 마지막 단계에서는 그 절반으로 끝납니다. 우리는 사전 훈련 동안 60 개의 고자원 언어로 시작하고, 중간 훈련 동안 110 개의 언어로 확장하며, 감쇠 단계 동안 FineWeb2 의 모든 1,833 개 언어를 포함합니다. 이는 제한된 저자원 언어 데이터의 영향을 극대화하면서 과도한 반복을 유지하지 않고 전체적인 데이터 품질을 높이는 것을 가능하게 합니다.

mmBERT 는 ModernBERT 구조를 기반으로 하지만 다국어 학습을 위한 몇 가지 핵심 혁신을 도입했습니다:

우리는 ModernBERT-base 와 동일한 핵심 구조 (22 층, 1152 개의 중간 차원) 를 사용하지만 다국어 텍스트를 더 잘 처리하기 위해 Gemma 2 토크나이저로 전환합니다. 기본 모델은 110M 개의 비 임베딩 파라미터 (큰 보컬러비로 인해 총 307M) 을 가지며, 작은 변형은 42M 개의 비 임베딩 파라미터 (총 140M) 를 가집니다.

우리의 훈련은 세 가지 단계의 설계된 스케줄을 따릅니다:

사전 훈련 (2.3T 토큰): 60 개 언어를 사용하여 와밍업 및 안정적인 학습률 단계를 진행합니다 (30% 마스크 비율)
중간 훈련 (600B 토큰): 컨텍스트 확장을 8192 토큰으로, 더 고품질의 데이터로, 15% 마스크 비율을 가진 110 개 언어로 확장합니다
감쇠 단계 (100B 토큰): 역제곱근 학습률 감쇠, 5% 마스크 비율을 가진 모든 1,833 개의 언어를 포함합니다

역 마스크 비율 스케줄: 고정된 마스크 비율 대신 훈련 단계에 걸쳐 30% → 15% → 5% 로 점진적으로 마스크 비율을 감소시킵니다. 이는 모델이 초기에 더 높은 마스크 비율로 기본 표현을 학습할 수 있게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

mmBERT: 다국어 모델이 현대 BERT 를 넘어선다

요약

핵심 포인트

댓글