본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:56

m3BERT: 현대적인 다국어 Matryoshka 양방향 인코더

요약

m3BERT는 다양한 임베딩 차원과 Transformer 레이어에서 표현력을 공동 최적화하는 Matryoshka 사전 학습 전략을 도입한 새로운 다국어 양방향 인코더입니다. 단일 모델로 자원 제약과 정확도 목표에 따라 유연하게 대응할 수 있으며, 3단계 사전 학습 과정을 통해 상업적 검색 성능을 극대화했습니다. Bing-Click 데이터셋 등에서 기존 SOTA 모델을 능가하는 성능을 입증하며 산업용 검색 시스템의 효율적인 기반을 제시합니다.

핵심 포인트

  • Matryoshka 사전 학습 전략을 통해 단일 모델로 다양한 임베딩 차원 지원 가능
  • 단일 언어 사전 학습, 다국어 적응, 웹 도메인 지속적 사전 학습의 3단계 프로세스 적용
  • 기존 모델의 고정된 아키텍처 및 차원 제약 문제를 해결하여 배포 유연성 확보
  • Bing-Click 데이터셋에서 최첨단(SOTA) 임베딩 모델 대비 우수한 성능 기록

임베딩 모델 (Embedding models)은 검색 및 광고와 같은 산업용 정보 검색 (Information retrieval) 시스템에서 중추적인 역할을 합니다. 그러나 기존의 사전 학습된 모델 (Pretrained models)은 종종 고정된 아키텍처 (Architectures)와 임베딩 차원 (Embedding dimensionalities)을 나타내며, 이는 비즈니스 중심의 다양한 제약 조건이 있는 다양한 배포 시나리오에 적응할 때 상당한 어려움을 초래합니다. 일반적인 관행은 자원이 제한된 작업을 위해 더 큰 사전 학습된 모델로부터 일부 파라미터 (Parameters)를 초기화하여 미세 조정 (Fine-tuning)하는 것입니다. 이 방법은 사전 학습 (Pretraining)과 다운스트림 (Downstream) 사용 간의 불일치로 인해 사전 학습의 이점을 완전히 실현하지 못하므로 종종 최적의 결과가 아닙니다. 이러한 한계를 해결하기 위해, 우리는 Transformer 레이어와 여러 임베딩 차원 모두에서 표현 (Representations)을 공동으로 최적화하는 새로운 사전 학습 전략을 특징으로 하는 m3BERT: 현대적인 다국어 Matryoshka 양방향 인코더 (A Modern, Multi-lingual, Matryoshka Bidirectional Encoder)를 소개합니다. 이를 통해 단일 모델이 사전 학습과의 일관성을 유지하면서 다양한 자원 및 정확도 목표에 맞게 조정될 수 있습니다. 최근의 아키텍처 개선 사항을 통합하여, m3BERT는 3단계 사전 학습을 사용합니다: 단일 언어 사전 학습 (Monolingual pretraining), 다양한 사용자층을 지원하기 위한 다국어 적응 (Multilingual adaptation), 그리고 상업적 검색에서의 유용성을 높이기 위해 거대한 웹 도메인 코퍼스 (Web domain corpus)에 대한 중요한 지속적 사전 학습 (Continual pretraining)입니다. m3BERT는 대규모 산업용 검색 데이터셋인 Bing-Click에서 최첨단 (State-of-the-art) 임베딩 모델들을 크게 능가하며, 자원 인식형 산업용 검색 시스템을 위한 효율적인 기반으로서 실질적인 다재다능함을 보여줍니다. 공개 데이터셋에 대한 추가 실험 또한 우리의 다중 입도 (Multigranular) Matryoshka 사전 학습 전략의 일반적인 효과를 확인시켜 줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0