ML-Embed: 다국어 세상을 위한 포용적이고 효율적인 임베딩 (Embeddings)
요약
ML-Embed는 3차원 마트료시카 학습(3D-ML) 기반의 새로운 프레임워크로, 고품질 텍스트 임베딩이 직면한 계산 비용, 언어적 편향성, 투명성 부족 등의 문제를 해결하기 위해 개발되었습니다. 이 모델은 대규모 다국어 데이터셋을 사용하여 140M에서 8B 매개변수까지의 포괄적인 모델 세트를 제공하며, 모든 구성 요소를 공개하여 재현 가능한 AI 시스템 구축에 기여합니다.
핵심 포인트
- ML-Embed는 3차원 마트료시카 학습(3D-ML)을 기반으로 하여 계산 효율성과 유연성을 극대화했습니다.
- 모델은 대규모 다국어 데이터셋을 활용하여 언어적 포용성 문제를 해결하고, 저자원 언어에서 특히 강력한 성능을 보입니다.
- 모든 모델, 데이터, 코드를 공개함으로써 AI 시스템의 투명성과 재현성을 확보했습니다.
- 430개 태스크에 대한 광범위한 평가 결과, 17개 MTEB 벤치마크 중 9개에서 신기록을 달성했습니다.
고품질 텍스트 임베딩 (text embeddings)의 발전은 세 가지 결정적인 장벽에 의해 정의되는 배타적인 미래로 점점 기울고 있습니다: 과도한 계산 비용 (computational costs), 세계 언어의 대부분을 소외시키는 좁은 언어적 초점, 그리고 연구를 저해하는 폐쇄형 소스 (closed-source) 또는 오픈 웨이트 (open-weight) 모델의 투명성 부족입니다. 이러한 장벽을 허물기 위해, 우리는 새로운 프레임워크인 3차원 마트료시카 학습 (3-Dimensional Matryoshka Learning, 3D-ML)을 기반으로 구축된 포용적이고 효율적인 모델 세트인 ML-Embed를 소개합니다. 우리의 프레임워크는 모델의 전체 생애 주기(lifecycle)에 걸쳐 포괄적인 효율성을 통해 계산 문제를 해결합니다. 마트료시카 표현 학습 (Matryoshka Representation Learning, MRL)의 저장 공간 이점과 마트료시카 레이어 학습 (Matryoshka Layer Learning, MLL)이 제공하는 유연한 추론 시간 (inference-time) 깊이를 넘어, 우리는 매개변수 효율성 (parameter efficiency)을 향상시키기 위한 마트료시카 임베딩 학습 (Matryoshka Embedding Learning, MEL)을 도입합니다. 언어적 문제를 해결하기 위해, 우리는 대규모 다국어 데이터셋을 큐레이션하고 140M에서 8B 매개변수에 이르는 모델 세트를 훈련합니다. 투명성에 대한 직접적인 약속으로서, 우리는 모든 모델, 데이터, 코드를 공개합니다. 430개의 태스크에 대한 광범위한 평가 결과, 우리 모델은 평가된 17개의 MTEB 벤치마크 중 9개에서 신기록을 세웠으며, 특히 저자원 언어 (low-resource languages)에서 강력한 결과를 보여줌으로써 전 세계적으로 공평하고 계산적으로 효율적인 AI 시스템을 구축하기 위한 재현 가능한 청사진을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기