다국어 밀집 검색 (Multilingual Dense Retrieval) 및 RAG 시스템을 위한 Google Embeddings 2와 오픈
요약
Google Embeddings 2(GE2)와 5종의 오픈 소스 모델을 다국어 밀집 검색 및 RAG 성능 관점에서 비교 분석한 연구입니다. GE2는 성능 면에서 압도적 1위를 기록했으나, 지연 시간 측면에서는 mE5-L과 같은 로컬 모델이 서비스 운영에 더 유리할 수 있음을 보여줍니다.
핵심 포인트
- GE2는 BEIR 및 IT-RAG-Bench에서 최고 성능 달성
- mE5-L은 GE2와 유사한 성능을 내면서도 지연 시간이 훨씬 짧음
- LaBSE는 다국어 모델임에도 불구하고 검색 성능이 기대보다 낮음
- 청킹 실험 결과 32-토큰 크기에서 성능 포화 상태 도달
우리는 2,048-토큰 컨텍스트(context)와 명시적인 작업 유형 조건화(task-type conditioning)를 갖춘 Vertex-AI 호스팅 바이-인코더(bi-encoder)인 Google Embeddings (GE2)를 다섯 가지 오픈 소스 대안 모델인 BGE-M3, E5-large, Multilingual-E5-large (mE5-L), LaBSE, 그리고 Paraphrase-Multilingual-MPNet (mMPNet)과 비교하여 벤치마킹합니다. 평가는 네 가지 BEIR 서브셋, 합성 이탈리아어 RAG 코퍼스(corpus), 세 가지 전략과 5가지 토큰 크기를 고려한 청킹(chunking) 절제 연구(ablation), 그리고 일반적인 CPU 하드웨어에서의 쿼리당 지연 시간(latency)을 포함합니다. GE2는 모든 작업에서 1위를 차지하며 BEIR 평균 nDCG@10 = 0.638 및 IT-RAG-Bench nDCG@10 = 0.282를 달성했지만, 중앙값 지연 시간이 231.6ms로 가장 빠른 로컬 모델보다 약 14배 느립니다. mE5-L은 이탈리아어에서 31ms의 지연 시간으로 GE2와 0.003 nDCG 차이 이내의 성능을 보여, 100ms 미만의 서비스 수준 계약(SLA)이 중요한 경우 선호되는 옵션이 됩니다. 더욱 놀라운 발견은 LaBSE에 관한 것으로, 광범위한 다국어 배포에도 불구하고 BEIR에서 평균 0.188 nDCG@10을 기록하여 mMPNet을 포함한 모든 전용 검색 모델보다 낮은 점수를 보였습니다. 청킹 실험 결과, 여섯 가지 모델 모두 본 코퍼스에서 32-토큰 청크에서 포화 상태에 도달하며, 의미론적 청킹(semantic chunking)은 16-토큰에서만 측정 가능한 이점을 제공하는 것으로 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기