arXiv논문2026. 05. 27. 12:19

커버리지 환상 (The Coverage Illusion): 프로덕션 RAG 시스템에서의 사전 검색 라우팅 실패부터 사후 검색 연쇄 효과까지

요약

RAG 시스템에서 합성 데이터와 실제 프로덕션 쿼리 간의 검색 커버리지 격차인 '커버리지 환상' 문제를 분석합니다. 사전 라우팅 대신 비용 효율적인 사후 검색 연쇄(post-retrieval cascade) 방식을 제안하여 품질 향상과 지연 시간 단축을 동시에 달성했습니다.

핵심 포인트

합성 쿼리와 실제 쿼리 간의 검색 커버리지 불일치 발견
사전 검색 라우팅만으로는 LLM 증강 필요성을 판단하기 어려움
사후 검색 연쇄 방식을 통해 지연 시간 31.8% 단축
LLM 증강 없이 실제 사용자 쿼리의 72.2% 처리 가능

현대적인 RAG (Retrieval-Augmented Generation) 파이프라인에서는 HyDE 및 쿼리 확장 (query expansion)과 같은 쿼리 증강 (query augmentation) 방법이 모든 쿼리에 적용되며, 이는 상당한 LLM (Large Language Model) 추론 비용과 엔드 투 엔드 (end-to-end) 지연 시간 (latency) 증가를 초래합니다. 실제 프로덕션 트래픽에서 이러한 오버헤드에 대한 경험적 정당성은 여전히 거의 탐구되지 않은 상태입니다. 본 연구에서는 Danish National Encyclopedia의 사례 연구를 제시하며, 프로덕션 트래픽 및 합성 (synthetic) 조건에서 생성된 20,000개의 쿼리-워크플로 쌍을 통해 5가지 검색 워크플로를 평가합니다. 이 시스템에서 합성 쿼리는 높은 검색 커버리지 (retrieval coverage)를 달성하기 위해 90% 이상의 쿼리에 LLM 증강이 필요함을 시사합니다. 그러나 우리의 프로덕션 유예 정책 (production deferral policy) 하에서는 실제 사용자 쿼리의 27.8%만이 LLM 증강을 필요로 합니다. 우리는 이 격차를 커버리지 환상 (Coverage Illusion)이라 부르며, 이를 합성 쿼리와 실제 쿼리 분포 사이의 구조적 불일치 때문으로 분석합니다. 4가지 머신러닝 (machine learning) 패러다임에 대한 평가 결과, LLM 증강의 필요성은 인덱스 (index) 검색 후에야 드러나기 때문에 사전 검색 라우팅 (Pre-retrieval routing)으로는 이 격차를 해결할 수 없음을 확인했습니다. 쿼리만으로는 감지할 수 없는 이 커버리지 격차로 인해, 우리는 워크플로를 비용이 저렴한 순서대로 실행하고 단계에서 문서가 반환되지 않을 때만 LLM 증강으로 격상시키는 사후 검색 연쇄 (post-retrieval cascade) 방식을 고안하게 되었습니다. 별도의 학습 오버헤드나 보조 서빙 인프라 없이 작동하는 이 연쇄 방식은 Always-HyDE 방식 대비 품질을 Composite Overall 점수 기준 +0.140점 향상시키고, 지연 시간을 31.8% 단축하며, 실제 사용자 쿼리의 72.2%를 LLM 증강 없이 처리합니다.

AI 자동 생성 콘텐츠

원문 바로가기

커버리지 환상 (The Coverage Illusion): 프로덕션 RAG 시스템에서의 사전 검색 라우팅 실패부터 사후 검색 연쇄 효과까지

요약

핵심 포인트

댓글