arXiv논문2026. 06. 30. 12:34

가져오기 전에 알기: 검색 증강 생성(RAG)을 위한 보정된 검색 예산 할당

요약

RAG 시스템에서 쿼리마다 검색할 구절의 수를 동적으로 결정하는 '보정된 검색 예산 할당' 연구를 소개합니다. 확률 인터페이스를 통해 불확실성을 정답 확률로 보정하여, 효율적인 컨텍스트 선택과 지연 시간 및 토큰 비용 최적화를 달성합니다.

핵심 포인트

고정된 검색 대신 쿼리 난이도에 따라 검색 예산을 적응적으로 할당
시퀀스 로그 확률과 접두사 로짓을 활용한 확률 보정 기술 제안
TriviaQA, MS MARCO 등 주요 벤치마크에서 높은 보정 성능 입증
시스템 제약 조건에 따른 지연 시간 및 토큰 비용의 트레이드오프 분석

검색 증강 생성 (Retrieval-augmented generation, RAG)은 일반적으로 모든 쿼리에 대해 고정된 수의 구절(passages)을 검색합니다. 이는 독자가 이미 답을 알고 있는 경우 낭비가 될 수 있으며, 관련이 없거나 부분적으로만 관련이 있는 구절이 독자의 주의를 분산시킬 때는 해로울 수 있습니다. 우리는 적응형 RAG (adaptive RAG)를 보정된 검색 예산 할당 (calibrated retrieval-budget allocation)으로 공식화합니다: 쿼리가 주어졌을 때, 폐쇄형 (closed-book) 방식으로 답할지, 압축된 컨텍스트 (k=1)를 검색할지, 전체 컨텍스트 (k=5)를 검색할지, 아니면 답변을 포기할지 결정합니다. 본 연구의 기여는 새로운 가공되지 않은 불확실성 신호 (raw uncertainty signal)가 아닌 확률 인터페이스 (probability interface)를 제공하는 것입니다. 우리는 시퀀스 로그 확률 (sequence log-probability) 및 접두사 로짓 불확실성 (prefix-logit uncertainty) 신호를 정답 확률로 보정(calibrate)한 다음, 이러한 확률을 단계별 컨텍스트 선택, 선택적 포기, 그리고 명시적인 지연 시간/토큰 트레이드오프 (latency/token trade-offs)에 사용합니다. PopQA를 통한 동기 부여와 Qwen/Llama 제품군 검증을 포함하여 TriviaQA, Natural Questions, MS MARCO에 대한 핵심 QA 실험을 수행한 결과, 진단적 out-of-fold 보정이 확률 품질을 극적으로 향상시킴을 확인했습니다: 시퀀스 로그 확률의 경우, ECE(Expected Calibration Error)가 TriviaQA에서 0.275에서 0.062로, NQ에서 0.643에서 0.009로, MS MARCO에서 0.711에서 0.031로 감소했습니다. 단계별 검색은 우리의 신호와 TARG 방식의 접두사 엔트로피/마진 (prefix entropy/margin) 모두에 대해 전체 컨텍스트 및 구절 예산 프런티어 (passage-budget frontiers)를 개선하는 반면, 검색 호출 AUC는 k=1 역시 검색 호출에 해당하기 때문에 이진 게이팅 (binary gating)과 본질적으로 대등하게 유지됩니다. 홀드아웃 (Held-out) 훈련/검증/테스트 임계값 실험을 통해 배포 가능한 운영 지점 (operating points)을 보고합니다. 일치된 정확도 프런티어 운영 지점에서 측정된 비용 모델에 따르면, 게이팅이 항상 더 빠른 것은 아님이 밝혀졌습니다: Qwen3-8B에서는 지연 시간을 약 27% 증가시키지만, Qwen3-32B에서는 약 8%를 절감합니다. 이러한 결과는 적응형 RAG에 대한 미묘한 관점을 뒷받침합니다: 보정된 신뢰도 (calibrated confidence)는 작업 및 시스템 제약 조건 하에서 검색 예산을 할당하기 위한 재사용 가능한 인터페이스로 이해하는 것이 가장 좋습니다.

AI 자동 생성 콘텐츠

원문 바로가기

가져오기 전에 알기: 검색 증강 생성(RAG)을 위한 보정된 검색 예산 할당

요약

핵심 포인트

댓글