SkMTEB: 슬로바키아어 대규모 텍스트 임베딩 벤치마크 및 모델 적응
요약
슬로바키아어를 위한 포괄적인 MTEB 스타일 텍스트 임베딩 벤치마크인 SkMTEB가 공개되었습니다. 이 벤치마크와 함께, 연구진은 Multilingual E5 모델에 어휘 트리밍 및 파인튜닝을 적용하여 로컬 배포가 가능한 슬로바키아어 전용 임베딩 모델(e5-sk-small/large)을 개발했습니다. 이는 자원이 부족한 언어의 임베딩 성능 향상에 기여할 것으로 기대됩니다.
핵심 포인트
- 슬로바키아어를 위한 최초의 MTEB 스타일 벤치마크 SkMTEB 공개
- 대규모 명령어 기반 다국어 모델이 가장 강력한 성능을 보임
- e5-sk-small/large는 로컬 배포가 가능하며 독점 API와 경쟁하는 성능 달성
- 자원이 부족한 언어의 임베딩 작업에 재현 가능한 경로 제시
우리는 저자원 서슬라브어인 슬로바키아어를 위한 최초의 포괄적인 MTEB 스타일 텍스트 임베딩 벤치마크인 SkMTEB를 소개합니다. 이 벤치마크는 7가지 작업 유형에 걸쳐 31개의 데이터셋으로 구성되어 있으며, 이는 기존 다국어 벤치마크가 슬로바키아어에 대해 커버하는 깊이보다 거의 4배 더 깊습니다. 31개 임베딩 모델을 평가한 결과, 대규모 명령어 기반(instruction-tuned) 다국어 모델이 가장 강력한 성능을 보였으며, 기존의 NLU 작업을 위해 학습된 슬로바키아어 전용 모델은 임베딩 작업으로 전이될 때 성능이 저조했습니다. 효율적이고 로컬 배포가 가능한 슬로바키아어 임베딩의 필요성을 해결하기 위해, 우리는 Multilingual E5 모델에 어휘 트리밍(vocabulary trimming)과 파인튜닝을 적용하여 exttt{e5-sk-small} (45M 파라미터)와 exttt{e5-sk-large} (365M)를 개발했습니다. 최대 62%의 크기 감소에도 불구하고, 우리의 오픈 소스 모델은 시맨틱 검색 및 검색 증강 생성(RAG)을 위해 로컬에서 배포 가능하면서도 독점 API와 경쟁할 수 있는 성능을 달성합니다. 우리는 이 벤치마크, 모델, 데이터셋, 그리고 코드를 공개적으로 출시하며, 우리의 접근 방식이 다른 자원이 부족한 언어에도 재현 가능한 경로를 제공하기를 바랍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기