본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 12. 16:15

불확실성 인식 하이브리드 검색을 통한 장문 RAG

요약

본 논문은 RAG의 핵심 문제인 청크 세분성 불확실성을 다루는 새로운 하이브리드 검색 프레임워크 UMG-RAG를 제안합니다. UMG-RAG는 기존 밀집형 및 희소형 리트리버를 활용하여 쿼리별 신뢰도를 추정하고, 이를 통해 여러 세분성의 증거들을 효과적으로 융합합니다. 또한, 부모 승격 변형인 UMGP-RAG도 도입하여 검색 품질을 향상시킵니다.

핵심 포인트

  • UMG-RAG는 청크 세분성 불확실성을 다루는 하이브리드 RAG 프레임워크입니다.
  • 기존 리트리버를 활용하며, 쿼리별 신뢰도 추정 및 증거 융합을 수행합니다.
  • 부모 승격(Parent-Passage) 변형인 UMGP-RAG로 검색 품질과 로컬 일관성을 높였습니다.

검색 증강 생성(RAG)은 검색된 증거의 품질과 세분성에 결정적으로 의존합니다. 대형 검색 단위는 문맥을 보존하지만, 종종 관련 없는 내용을 포함하여 답변에 필요한 증거를 희석시키고 긴 컨텍스트 활용도를 저하시킬 수 있습니다. 미세한(Fine-grained) 단위는 더 간결하지만, 짧은 청크가 쿼리와 일치하는 데 필요한 의미적, 어휘적 또는 연결 고리 단서가 부족하여 신뢰성 있게 검색하기 어려울 수 있습니다. 우리는 청크 세분성을 쿼리별 신뢰도 추정으로 다루는 학습이 필요 없는 하이브리드 검색 프레임워크인 Uncertainty-aware Multi-Granularity RAG (UMG-RAG)를 제안합니다. UMG-RAG는 새로운 리트리버(retriever)를 훈련하거나 생성기(generator)를 수정하는 대신, 기존의 밀집형(dense) 및 희소형(sparse) 리트리버를 여러 청크 세분성에 걸쳐 상호 보완적인 전문가로 사용합니다. 각 쿼리에 대해, 이는 각 전문가-세분성 점수 목록을 증거 분포로 변환하고, 분포 엔트로피로부터 신뢰도를 추정하며, 쿼리별 의미적, 어휘적 및 세분성 확신도에 따라 후보들을 융합(fuse)합니다. 나아가 우리는 미세한 검색 결과를 사용하여 관련 증거를 찾고 로컬 일관성을 위해 더 넓은 중복되지 않은 부모 청크를 반환하는 부모 승격 변형인 UMGP-RAG를 도입합니다. 질문 답변 벤치마크 실험 결과, 불확실성 인식 융합과 부모 승격이 생성 품질을 향상시키면서도 가볍고 플러그 앤 플레이(plug-and-play) 검색 파이프라인을 유지함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0