arXiv논문2026. 06. 30. 11:36

보이지 않는 영역의 포괄: 검색 증강 생성(RAG)을 위한 정보 수요 커버리지 최적화

요약

복잡한 쿼리에 대응하기 위해 컨텍스트 선택을 정보 수요 커버리지 최적화 문제로 재구성한 GeoRAG를 제안합니다. Sinkhorn-Wasserstein 거리를 최소화하여 다차원 수요를 포괄하며, 기존 top-k 방식보다 높은 정확도를 보여줍니다.

핵심 포인트

GeoRAG는 정보 수요 커버리지 최적화 프레임워크 제안
Sinkhorn-Wasserstein 거리를 활용한 컨텍스트 선택 최적화
비지도 학습 및 별도의 학습이 필요 없는 training-free 방식
6개 벤치마크에서 기존 베이스라인 대비 높은 EM 점수 달성

검색 증강 생성 (Retrieval-augmented generation, RAG)은 일반적으로 컨텍스트 선택을 단일 쿼리 임베딩 (query embedding)에 대해 청크 (chunks)를 순위 매기는 과정으로 취급합니다. 이러한 가정은 멀티홉 (multi-hop) 또는 모호한 질문과 같은 복잡한 쿼리의 경우 무너집니다. 이러한 경우 top-k 선택은 하나의 의미론적 측면은 과도하게 포괄하는 반면, 중요한 하위 질문 (sub-questions)들은 무시하는 경향이 있습니다. 우리는 컨텍스트 선택을 정보 수요 커버리지 최적화 (Information Demand Coverage Optimization)로 재구성하는 GeoRAG를 제안합니다. GeoRAG는 다양한 하위 쿼리 생성 (sub-query generation) 및 역검증 가중치 (reverse-validation weighting)를 통해 다차원 수요 분포를 구축한 다음, 이 수요 분포와 선택된 집합의 커버리지 사이의 Sinkhorn-Wasserstein 거리를 최소화함으로써 컨텍스트를 선택합니다. 결과적으로 도출된 수요 가중 시설 위치 (demand-weighted facility-location) 목적 함수는 단조 부함수 (monotone submodular)이며, $1-1/e$ 그리디 (greedy) 보장을 제공합니다. 우리는 이를 Sinkhorn 기반의 한계 이득 대리 함수 (marginal-gain surrogate)로 근사합니다. 이 방법은 비지도 학습 (unsupervised) 방식이며, 별도의 학습이 필요하지 않고 (training-free), 검색 방식에 구애받지 않습니다 (retrieval-agnostic). 우리는 더 나아가 단일 지점의 쿼리 근접성 점수 산출 방식 (single-point, query-proximity scorers)이 다중 모드 수요 (multi-modal demands)를 포괄할 수 없음을 보여주며, 순위 기반 선택 (ranking-based selection)의 구조적 한계를 드러냅니다. 6개의 오픈 도메인 QA 벤치마크에서 GeoRAG는 top-k 절단 (top-k truncation) 방식 대비 정확도 일치 (exact match, EM) 점수를 +6.5에서 +7.5포인트 향상시켰으며 (HotpotQA 및 ASQA에서는 최대 +9.7포인트), MMR, DPP, BGE-Reranker, SMART-RAG, AdaGReS를 포함한 강력한 베이스라인 모델들을 능가하였고, 컨텍스트 예산 (context budgets) 및 하위 쿼리 생성기 (sub-query generators) 전반에 걸쳐 안정적인 성능 향상을 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

보이지 않는 영역의 포괄: 검색 증강 생성(RAG)을 위한 정보 수요 커버리지 최적화

요약

핵심 포인트

댓글