KaLM-Reranker-V1: 압축된 문서 재순위화(Reranking)를 위한 빠르지만 Late Interaction은 아닌 방식
요약
KaLM-Reranker-V1은 쿼리와 구절의 계산을 분리하여 효율성을 높인 새로운 재순위화 모델입니다. Matryoshka 임베딩 풀링과 교차 주의 집중을 결합하여, Late Interaction 방식이 아니면서도 그에 준하는 강력한 성능을 제공합니다.
핵심 포인트
- 쿼리와 구절의 계산을 분리하여 배포 효율성 및 유연성 확보
- Matryoshka 임베딩 풀링을 통한 구절 사전 인코딩 지원
- Nano, Small, Large 세 가지 크기의 모델 라인업 제공
- BEIR, MIRACL, LMEB 벤치마크에서 최첨단 성능 입증
검색 시스템(Retrieval systems)이 확장됨에 따라, 고품질의 재순위화(Reranking)가 점점 더 중요해지고 있습니다. 그러나 인코더 기반(Encoder-based)이든 디코더 기반(Decoder-based)이든 대부분의 기존 재순위화 모델들은 쿼리(Query)와 구절(Passage)을 공동으로 인코딩하여 계산을 밀접하게 결합하며, 이는 배포 효율성과 유연성을 제한합니다. 우리는 표현력이 풍부한 관련성 모델링(Relevance modeling)을 유지하면서 쿼리와 구절의 계산을 분리하는, 빠르지만 Late Interaction은 아닌 (Fast but Not Late Interaction, FBNL) 재순위화 모델인 KaLM-Reranker-V1을 선보입니다. 인코더-디코더(Encoder-decoder) 아키텍처를 기반으로 구축된 KaLM-Reranker-V1은 Matryoshka 임베딩 풀링(Matryoshka embedding pooling)을 사용하여 인코더로 구절을 사전 인코딩하는 한편, 디코더는 시스템 지시어(System instruction), 사용자 지시어(User instruction), 그리고 쿼리 의도(Query intent)를 모델링합니다. 이후 교차 주의 집중(Cross-attention)을 통해 쿼리 컨텍스트와 구절 표현 사이의 관련성을 포착합니다. 이러한 설계는 분리된 구절 인코딩을 통해 KaLM-Reranker-V1을 효율적으로 만들면서도, 교차 주의 집중을 통해 풍부한 관련성 모델링을 보존함으로써 Late Interaction 방식은 아니지만 그에 준하는 성능을 제공합니다. 우리는 KaLM-Reranker-V1을 각각 0.27B, 1B, 4B의 활성화 파라미터(Activated parameters)를 가진 Nano, Small, Large의 세 가지 크기로 구현했습니다. BEIR, MIRACL, LMEB에 대한 광범위한 실험을 통해 KaLM-Reranker-V1이 우수한 효율성과 함께 강력한 재순위화 성능을 달성함을 입증했습니다. BEIR에서 KaLM-Reranker-V1은 Qwen3-Reranker 시리즈와 같은 강력한 산업용 모델과 대등한 최첨단(State-of-the-art) 성능을 달성했습니다. MIRACL에서는 다국어 데이터로 광범위하게 학습되지 않았음에도 불구하고 KaLM-Reranker-V1은 여전히 뛰어난 재순위화 성능을 보여줍니다. 또한 LMEB에서 재순위화 모델들은 명확한 우위를 점하며, 심지어 0.27B Nano 모델조차 7-12B 임베딩 모델들과 경쟁할 만한 수준을 유지합니다.
arXiv : https://arxiv.org/abs/2606.22807
Full Paper : https://arxiv.org/pdf/2606.22807
GitHub : https://github.com/KaLM-Embedding
HuggingFace : https://huggingface.co/collections/KaLM-Embedding/lychee-kalm-reranker
submitted by /u/pmttyji
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기