SURE-RAG: 선택적 RAG 응답을 위한 충분성과 불확실성 인식 증거 검증

검색 증강 생성 (RAG) 은 검색된 문서를 바탕으로 답변을 제시하지만, 검색은 검증이 아닙니다. 문서는 주제와 관련이 있을 수 있지만 여전히 답변을 정당화하지 못할 수 있습니다. 우리는 이를 선택적 RAG 응답의 증거 충분성 검증으로 정의합니다: 질문, 후보 답변, 검색된 증거가 주어졌을 때, 해당 증거가 답변을 지지하거나 반박하거나 또는 불충분한지 예측하고, 지원이 확립되지 않는 한 회피합니다.

우리는 SURE-RAG를 제시합니다. 이는 증거 충분성이 집합 수준의 속성임을 관찰하여 구축된 투명한 집계 프로토콜입니다. 누락된 연결과 해결되지 않은 충돌은 독립적인 문서 점수로 감지할 수 없습니다. 공유 쌍 수준 주장-증거 검증기는 지역적 관계 분포를 생성하며, SURE-RAG 는 이를 해석 가능한 답변 수준 신호로 집계합니다 -- 커버리지, 관계 강도, 불일치, 충돌, 검색 불확실성 -- 세 가지 결정을 내리고 검증 가능한 선택적 점수를 제공합니다.

우리는 HotpotQA-RAG v3 를 평가했습니다. 이는 통제된 멀티 홉 벤치마크이며, 아티팩트 인식 프로토콜 (단축 기저선, 반례 스왑, 오라클 없음 체크, GPT-4o 감사) 하에서 수행되었습니다. 교정된 SURE-RAG 는 0.9075 Macro-F1 점수를 달성했습니다 (0.8951 +/- 0.0069), 이는 DeBERTa 평균 풀링 (0.6516) 과 GPT-4o 판사 (0.7284) 보다 현저히 높으며, 강력한 그러나 불투명한 concat 크로스 엔코더 (0.8888 +/- 0.0109) 와 일치합니다. 완전한 감사 가능성을 제공합니다.

30% 커버리지에서 리스크는 0.2588 에서 0.1642 로 감소하여, 위험한 답변의 37% 감소입니다. 임의적으로 작업 경계를 탐구하기 위해, 우리는 HaluBench 안전성 감지와 SURE-RAG 를 GPT-4o 와 비교했습니다: 순위가 반전되었습니다 (0.3343 vs 0.7389 unsafe-F1), 통제된 충분성 검증과 자연스러운 환각 감지는 다른 문제임을 확립합니다.

Insights

SURE-RAG: 선택적 RAG 응답을 위한 충분성과 불확실성 인식 증거 검증

요약

핵심 포인트

댓글

GPT-5.6 완전 가이드: Sol, Terra, Luna의 성능, 가격 및 사용 권장 사항

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다

GPT-5.6 완전 가이드: Sol, Terra, Luna의 성능, 가격 및 사용 권장 사항

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다