arXiv논문2026. 06. 15. 11:20

ScoreGate: 이중 점수 통계적 융합을 통한 검색 증강 생성(RAG)용 적응형 청크 선택

요약

ScoreGate는 RAG 시스템에서 쿼리 복잡도에 따라 검색되는 청크 수를 동적으로 조절하는 경량 메커니즘입니다. 바이-인코더와 크로스-인코더 점수를 통계적으로 융합하여 추가 추론 비용 없이 검색 효율성과 품질을 동시에 개선합니다.

핵심 포인트

고정된 Top-K 방식의 과잉/부족 검색 문제를 해결
추가 모델 호출 없이 바이-인코더와 크로스-인코더 점수 활용
MS MARCO 데이터셋에서 청크 수를 35% 줄이면서도 높은 성능 유지
토큰 사용량을 34.8% 절감하며 지연 시간은 최소화

고정된 카디널리티(Fixed-cardinality) 검색은 쿼리의 복잡도와 관계없이 생성기(Generator)에 일정한 수의 상위 K개 청크(top-K chunks)를 주입하며, 이는 좁은 범위의 쿼리에는 과잉 검색(over-retrieval)을, 복합적인 쿼리에는 검색 부족(under-retrieval)을 야기합니다. 본 논문에서는 표준 파이프라인에서 이미 생성되는 두 가지 점수인 바이-인코더 유사도(bi-encoder similarity) $s_i$와 크로스-인코더 리랭커 점수(cross-encoder reranker score) $r_i$를 사용하여, 추가적인 모델 추론 호출 없이 추론 시점에 검색 카디널리티를 제어하는 경량 점수 공간 결정 메커니즘인 ScoreGate를 설명합니다. ScoreGate의 핵심 통찰은 크로스-인코더의 확인(affirmation)이 어휘 불일치(vocabulary mismatch)로 인해 바이-인코더 검색에서 낮은 순위로 매겨진 의미론적 관련 청크를 구제할 수 있다는 점입니다. 이는 고정된 K값이나 단일 점수 임계값 방식으로는 해결할 수 없는 실패 모드입니다. MS MARCO(200개 개발 쿼리) 데이터셋에서 ScoreGate는 표준 Top-K 방식보다 35% 적은 청크를 유지하면서도 MRR@10 = 0.401을 달성했습니다. 내부 벤치마크(n=300, Fleiss' kappa=0.87)에서 ScoreGate는 97.77-99.34%의 재현율(recall)에서 위양성(false positives)이 0임을 관찰하였고(95% CI [96.4%, 100%]), 쿼리당 토큰 수를 34.8% 줄이면서 지연 시간(latency)은 단 31ms만 추가되었습니다. MS MARCO와 실제 운영 트래픽 모두에서의 결과는 적응형 검색 카디널리티가 검색 품질을 저하시키지 않으면서도 검색 효율성을 향상시킬 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ScoreGate: 이중 점수 통계적 융합을 통한 검색 증강 생성(RAG)용 적응형 청크 선택

요약

핵심 포인트

댓글