AB-RAG: 신뢰할 수 있는 질의응답을 위한 적응형 예산 기반 검색 증강 생성 (Adaptive Budgeted
요약
질문의 난이도에 따라 검색 자원을 유동적으로 조절하는 AB-RAG 프레임워크를 제안합니다. 모델의 확실성, 일치성, 검색 점수 분산을 결합하여 신뢰도를 추정하고 최적의 검색 예산을 결정합니다.
핵심 포인트
- 질문 난이도에 따라 검색량을 조절하는 적응형 예산 기반 RAG 제안
- 훈련이 필요 없고 다양한 백본 모델에 적용 가능한 프레임워크
- 모델 확실성, 답변-증거 일치성, 검색 점수 분산을 통한 신뢰도 추정
- 폐쇄형 API 환경에서도 자기 일관성을 통해 신뢰도 근사 가능
- 실험 결과, 신뢰도 추정치가 정답과 오답을 명확히 구분함
검색 증강 생성 (Retrieval-Augmented Generation, RAG)은 대규모 언어 모델 (Large Language Models, LLMs)을 외부 지식에 기반하도록 만드는 표준적인 방법이 되었으나, 대부분의 시스템은 질문의 난이도와 관계없이 모든 질문에 대해 고정된 수의 구절 (passages)을 검색합니다. 이는 쉬운 질문에는 계산 자원을 낭비하고, 어려운 질문에는 자원이 부족하게 만들며, 생성된 답변을 언제 신뢰할 수 있는지에 대한 신호를 제공하지 못합니다. 상용 언어 모델 API를 기반으로 구축된 질의응답 시스템의 비중이 커짐에 따라, 기반 모델을 재학습시키지 않고도 얼마나 많이 검색할지, 그리고 자신의 답변을 어디까지 신뢰할지를 결정할 수 있는 방법은 분명한 실용적 가치를 지닙니다.
본 논문은 AB-RAG (Adaptive Budgeted Retrieval-Augmented Generation)를 제시합니다. 이는 훈련이 필요 없고 (training-free) 백본 (backbone)에 구애받지 않는 (agnostic) 프레임워크로, 답변을 생성하고 세 가지 신호의 조합을 통해 신뢰도 (confidence)를 추정하며, 고정된 검색 예산 (retrieval budget) 내에서 검색을 중단할지 아니면 더 많은 증거를 검색할지를 결정합니다. 추정기 (estimator)는 모델 자체의 확실성 (certainty), 답변과 증거 사이의 일치성 (agreement), 그리고 검색 점수의 분산 (variance)을 결합합니다. 토큰 확률 (token probabilities)을 노출하는 모델의 경우 확실성 신호를 직접 읽어오며, 폐쇄형 API (closed APIs)의 경우 자기 일관성 (self-consistency)을 통해 이를 근사하므로, 모델 내부 정보에 접근할 수 없는 환경에서도 작동합니다.
세 가지 백본과 두 개의 데이터셋을 대상으로 한 실험의 핵심 결과는, 신뢰도 추정치가 모든 백본에서 정답과 오답을 안정적으로 구분해낸다는 것입니다. 사실 관계 데이터셋 (factoid dataset)에서 높은 신뢰도의 답변과 낮은 신뢰도의 답변 사이의 정확도 (Exact Match)는 57.6% 대 0%라는 명확한 차이를 보였습니다. 적응형 정책 (adaptive policy)은 유능한 백본에서의 정확도를 향상시키며, 본 연구는 짧은 답변에는 부적합한 것으로 판명된 신뢰도 신호와 측정을 통해 부호 (sign)를 찾아내고 수정한 검색 신호를 포함하여, 부정적이고 미묘한 발견 사항들을 솔직하게 보고합니다. 전체 연구는 단 몇 달러의 API 비용만 사용한 단일 소비자용 노트북에서 수행되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기