arXiv논문2026. 06. 12. 13:32

SkMTEB: 슬로바키아어 대규모 텍스트 임베딩 벤치마크 및 모델 적응

요약

슬로바키아어를 위한 포괄적인 MTEB 스타일 텍스트 임베딩 벤치마크인 SkMTEB가 공개되었습니다. 이 벤치마크와 함께, 연구진은 Multilingual E5 모델에 어휘 트리밍 및 파인튜닝을 적용하여 로컬 배포가 가능한 슬로바키아어 전용 임베딩 모델(e5-sk-small/large)을 개발했습니다. 이는 자원이 부족한 언어의 임베딩 성능 향상에 기여할 것으로 기대됩니다.

핵심 포인트

슬로바키아어를 위한 최초의 MTEB 스타일 벤치마크 SkMTEB 공개
대규모 명령어 기반 다국어 모델이 가장 강력한 성능을 보임
e5-sk-small/large는 로컬 배포가 가능하며 독점 API와 경쟁하는 성능 달성
자원이 부족한 언어의 임베딩 작업에 재현 가능한 경로 제시

우리는 저자원 서슬라브어인 슬로바키아어를 위한 최초의 포괄적인 MTEB 스타일 텍스트 임베딩 벤치마크인 SkMTEB를 소개합니다. 이 벤치마크는 7가지 작업 유형에 걸쳐 31개의 데이터셋으로 구성되어 있으며, 이는 기존 다국어 벤치마크가 슬로바키아어에 대해 커버하는 깊이보다 거의 4배 더 깊습니다. 31개 임베딩 모델을 평가한 결과, 대규모 명령어 기반(instruction-tuned) 다국어 모델이 가장 강력한 성능을 보였으며, 기존의 NLU 작업을 위해 학습된 슬로바키아어 전용 모델은 임베딩 작업으로 전이될 때 성능이 저조했습니다. 효율적이고 로컬 배포가 가능한 슬로바키아어 임베딩의 필요성을 해결하기 위해, 우리는 Multilingual E5 모델에 어휘 트리밍(vocabulary trimming)과 파인튜닝을 적용하여 exttt{e5-sk-small} (45M 파라미터)와 exttt{e5-sk-large} (365M)를 개발했습니다. 최대 62%의 크기 감소에도 불구하고, 우리의 오픈 소스 모델은 시맨틱 검색 및 검색 증강 생성(RAG)을 위해 로컬에서 배포 가능하면서도 독점 API와 경쟁할 수 있는 성능을 달성합니다. 우리는 이 벤치마크, 모델, 데이터셋, 그리고 코드를 공개적으로 출시하며, 우리의 접근 방식이 다른 자원이 부족한 언어에도 재현 가능한 경로를 제공하기를 바랍니다.

AI 자동 생성 콘텐츠

원문 바로가기

SkMTEB: 슬로바키아어 대규모 텍스트 임베딩 벤치마크 및 모델 적응

요약

핵심 포인트

댓글