Zenn헤드라인2026. 04. 27. 12:58

Elasticsearch RAG: Dense/BM25/SPLADE를 RRF로 통합한 11개 태스크 검증

요약

TL;DR: Elasticsearch에서 Dense, Lexical(BM25), Sparse(SPLADE) 검색 방식을 RRF(Reciprocal Rank Fusion) 기법으로 통합하여 3-way 검색을 구현하는 실전 가이드입니다. JMTEB 벤치마크의 11개 태스크(NDCG@10 지표)를 대상으로 각 방식의 성능과 통합 시너지 효과를 검증했습니다. 개발자는 단일 모델 의존도를 낮추고 하이브리드 접근법의 효율성을 파악할 수 있습니다.

핵심 포인트

Elasticsearch는 하나의 인덱스에서 Dense, Lexical(BM25), Sparse(SPLADE) 등 3 가지 검색 방식을 동시에 지원하여 하이브리드 RAG 구현이 가능합니다.
RRF(Reciprocal Rank Fusion) 기법을 사용하여 서로 다른 벡터 공간과 TF-IDF/Word Embedding 기반의 결과들을 순위만 통합하면, 단일 방식보다 견고한 검색 성능을 얻을 수 있습니다.
JMTEB 벤치마크 11 개 태스크(NDCG@10) 검증 결과, Dense, Lexical, Sparse를 RRF 로 혼합하는 방식이 개별 방식 단독 사용보다 일관된 높은 성능을 보였습니다.
검색 알고리즘 선정 시 단일 모델에 의존하기보다, Elasticsearch 의 다중 검색 기능과 RRF 를 활용한 통합 전략이 실무적으로 유리합니다.

Elasticsearch 에서의 RAG: Dense/BM25/SPLADE 를 RRF 로 섞어 11 개 태스크로 검증한 결과

이 글에서 알 수 있는 것

Elasticsearch 에서 사용할 수 있는 3 가지 검색 방식 (Dense / Lexical / Sparse) 의 차이점과, 이를 RRF 로 통합한 3-way 검색의 실무적 위치
JMTEB 의 11 개 태스크로 검증한 결과 (NDCG@10)

먼저

최근 업무에서 Elasticsearch 를 처음 사용하게 되었습니다. 설계를 진행하는 과정에서 고민이었던 점이 검색 알고리즘을 어떻게 선정할 것인가라는 점입니다.

Elasticsearch 에서는 하나의 인덱스에서 Dense Retrieval / Lexical Retrieval / Sparse Retrieval 의 3 가지 방식을 모두 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Elasticsearch RAG: Dense/BM25/SPLADE를 RRF로 통합한 11개 태스크 검증

요약

핵심 포인트

Elasticsearch 에서의 RAG: Dense/BM25/SPLADE 를 RRF 로 섞어 11 개 태스크로 검증한 결과

이 글에서 알 수 있는 것

먼저

댓글