Elasticsearch RAG: Dense/BM25/SPLADE를 RRF로 통합한 11개 태스크 검증
요약
TL;DR: Elasticsearch에서 Dense, Lexical(BM25), Sparse(SPLADE) 검색 방식을 RRF(Reciprocal Rank Fusion) 기법으로 통합하여 3-way 검색을 구현하는 실전 가이드입니다. JMTEB 벤치마크의 11개 태스크(NDCG@10 지표)를 대상으로 각 방식의 성능과 통합 시너지 효과를 검증했습니다. 개발자는 단일 모델 의존도를 낮추고 하이브리드 접근법의 효율성을 파악할 수 있습니다.
핵심 포인트
- Elasticsearch는 하나의 인덱스에서 Dense, Lexical(BM25), Sparse(SPLADE) 등 3 가지 검색 방식을 동시에 지원하여 하이브리드 RAG 구현이 가능합니다.
- RRF(Reciprocal Rank Fusion) 기법을 사용하여 서로 다른 벡터 공간과 TF-IDF/Word Embedding 기반의 결과들을 순위만 통합하면, 단일 방식보다 견고한 검색 성능을 얻을 수 있습니다.
- JMTEB 벤치마크 11 개 태스크(NDCG@10) 검증 결과, Dense, Lexical, Sparse를 RRF 로 혼합하는 방식이 개별 방식 단독 사용보다 일관된 높은 성능을 보였습니다.
- 검색 알고리즘 선정 시 단일 모델에 의존하기보다, Elasticsearch 의 다중 검색 기능과 RRF 를 활용한 통합 전략이 실무적으로 유리합니다.
Elasticsearch 에서의 RAG: Dense/BM25/SPLADE 를 RRF 로 섞어 11 개 태스크로 검증한 결과
이 글에서 알 수 있는 것
- Elasticsearch 에서 사용할 수 있는 3 가지 검색 방식 (Dense / Lexical / Sparse) 의 차이점과, 이를 RRF 로 통합한 3-way 검색의 실무적 위치
- JMTEB 의 11 개 태스크로 검증한 결과 (NDCG@10)
먼저
최근 업무에서 Elasticsearch 를 처음 사용하게 되었습니다. 설계를 진행하는 과정에서 고민이었던 점이 검색 알고리즘을 어떻게 선정할 것인가라는 점입니다.
Elasticsearch 에서는 하나의 인덱스에서 Dense Retrieval / Lexical Retrieval / Sparse Retrieval 의 3 가지 방식을 모두 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn ML의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기