본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 06. 05:24

mmBERT: 다국어 모델이 현대 BERT 를 넘어선다

요약

mmBERT는 1,800개 이상의 언어에 걸쳐 3조 토큰 이상으로 훈련된 최첨단 다국어 인코더 모델입니다. 이 모델은 ModernBERT의 효율적인 구조를 기반으로 하면서도, 세 단계에 걸친 체계적인 데이터 학습 전략과 점진적 언어 포함 방식을 도입하여 이전 모델 대비 성능 및 속도를 크게 향상시켰습니다. 특히 고품질 영어 콘텐츠와 광범위한 다국어 커버리지를 결합하고, 훈련 단계별로 마스크 비율을 조정하는 혁신적인 접근 방식을 통해 저자원 언어 학습 능력을 극대화했습니다.

핵심 포인트

  • mmBERT는 1,800개 이상의 언어를 포괄하며 3조 토큰 이상으로 훈련된 대규모 다국어 인코더입니다.
  • ModernBERT 구조를 기반으로 하되, Gemma 2 토크나이저와 세 단계의 스케줄링을 통해 성능과 효율성을 개선했습니다.
  • 데이터셋은 고품질 영어(DCLM), 광범위한 다국어 웹 콘텐츠(FineWeb2), 그리고 고자원 언어 집중 데이터(FineWeb2-HQ)를 결합하여 구성되었습니다.
  • 핵심 혁신은 '점진적 언어 포함 전략'으로, 훈련 단계별로 점진적으로 언어를 늘려 저자원 언어의 영향을 최대화하고 데이터 품질을 유지합니다.
  • 훈련 과정에서 마스크 비율(30% → 15% → 5%)을 감소시키는 역 스케줄링을 적용하여 모델이 다양한 표현 학습 기회를 얻도록 했습니다.

이 블로그 포스트는 1800 개 이상의 언어에 걸쳐 3T+ 토큰의 텍스트로 훈련된 최첨단 대규모 다국어 인코더 모델인 mmBERT 를 소개합니다. 이전 다국어 모델에 비해 유의미한 성능 및 속도 향상을 보여주며, XLM-R 을 개선하는 첫 번째 모델이자, 저자원 언어를 효과적으로 학습하기 위한 새로운 전략을 개발했습니다. mmBERT 는 ModernBERT 를 기반으로 하여 매우 빠른 구조를 구축하고, 효율적인 다국어 학습을 가능하게 하는 새로운 구성 요소를 추가했습니다.

모델 자체를 직접 시도해보고 싶으시다면 이 블로그 포스트의 끝에 있는 일부 예제 템플릿이 있습니다!

mmBERT 는 세 가지 다른 훈련 단계에 걸쳐 3T 토큰 이상의 총합으로 구성된 신중하게 큐레이티드 다국어 데이터셋으로 훈련되었습니다. 우리의 훈련 데이터의 기초는 다국어 커버리지와 데이터 품질을 모두 가능하게 하는 세 가지 주요 오픈소스 및 고품질 웹 크롤링입니다:

DCLM 과 Filtered DCLM 은 가장 높은 품질의 영어 콘텐츠를 제공하여 강력한 영어 성능의 골격을 형성합니다 (필터링된 데이터는 Dolmino 에서 유래했습니다). 이 데이터셋은 최첨단 웹 필터링 기술을 나타내며 중요한 구성 요소입니다. 이 데이터의 고품질로 인해 우리는 이전 세대 다국어 인코더 모델보다 훨씬 높은 비율의 영어를 사용합니다 (최대 18%).

FineWeb2 는 1,800 개 이상의 언어를 포괄하는 광범위한 다국어 웹 콘텐츠를 제공합니다. 이 데이터셋은 다양한 언어 계열과 문자 체계에 걸쳐 합리적인 품질 기준을 유지하면서 우리의 광범위한 다국어 커버리지를 가능하게 합니다.

FineWeb2-HQ 는 FineWeb2 의 필터링된 하위 집합으로 20 개의 고자원 언어에 집중합니다. 이 필터링된 버전은 영어 전용 필터링 데이터와 광범위한 다국어 커버리지 사이의 간극을 연결하는 더 높은 품질의 다국어 콘텐츠를 제공합니다.

훈련 데이터는 Dolma, MegaWika v2, ProLong 등 전문 코퍼스도 포함합니다: 코드 저장소 (StarCoder, ProLong), 학술 콘텐츠 (ArXiv, PeS2o), 참고 자료 (위키백과, 교재), 커뮤니티 토론 (StackExchange) 및 지시와 수학적 데이터셋.

우리의 데이터 접근법의 핵심 혁신은 Figure 1 에서 보인 점진적 언어 포함 전략입니다. 각 단계에서 우리는 평탄한 분포 (즉, 균일 분포에 더 가깝게) 에서 점진적으로 샘플링하며 동시에 새로운 언어를 추가합니다. 이는 러시아어와 같은 고자원 언어가 데이터의 높은 비율로 시작 (즉, 9%) 이며 훈련의 마지막 단계에서는 그 절반으로 끝납니다. 우리는 사전 훈련 동안 60 개의 고자원 언어로 시작하고, 중간 훈련 동안 110 개의 언어로 확장하며, 감쇠 단계 동안 FineWeb2 의 모든 1,833 개 언어를 포함합니다. 이는 제한된 저자원 언어 데이터의 영향을 극대화하면서 과도한 반복을 유지하지 않고 전체적인 데이터 품질을 높이는 것을 가능하게 합니다.

mmBERT 는 ModernBERT 구조를 기반으로 하지만 다국어 학습을 위한 몇 가지 핵심 혁신을 도입했습니다:

우리는 ModernBERT-base 와 동일한 핵심 구조 (22 층, 1152 개의 중간 차원) 를 사용하지만 다국어 텍스트를 더 잘 처리하기 위해 Gemma 2 토크나이저로 전환합니다. 기본 모델은 110M 개의 비 임베딩 파라미터 (큰 보컬러비로 인해 총 307M) 을 가지며, 작은 변형은 42M 개의 비 임베딩 파라미터 (총 140M) 를 가집니다.

우리의 훈련은 세 가지 단계의 설계된 스케줄을 따릅니다:

사전 훈련 (2.3T 토큰): 60 개 언어를 사용하여 와밍업 및 안정적인 학습률 단계를 진행합니다 (30% 마스크 비율)
중간 훈련 (600B 토큰): 컨텍스트 확장을 8192 토큰으로, 더 고품질의 데이터로, 15% 마스크 비율을 가진 110 개 언어로 확장합니다
감쇠 단계 (100B 토큰): 역제곱근 학습률 감쇠, 5% 마스크 비율을 가진 모든 1,833 개의 언어를 포함합니다

역 마스크 비율 스케줄: 고정된 마스크 비율 대신 훈련 단계에 걸쳐 30% → 15% → 5% 로 점진적으로 마스크 비율을 감소시킵니다. 이는 모델이 초기에 더 높은 마스크 비율로 기본 표현을 학습할 수 있게 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0