에이전트형 RAG 파이프라인을 위한 베이지안 불확실성 전파: 멀티홉 질의응답에 대한 개념 증명 연구
요약
에이전트형 RAG 시스템의 신뢰성을 높이기 위해 베이지안 네트워크를 활용하여 다단계 추론 과정의 불확실성을 추정하는 프레임워크를 제안합니다. 플래너, 평가자, 생성자 단계에서 발생하는 신호를 통해 시스템의 잠재적 실패 지점을 식별합니다.
핵심 포인트
- 베이지안 네트워크를 통한 에이전트형 RAG의 시스템 수준 불확실성 추정
- 의미론적 발산 및 자기 평가를 통한 노드 수준의 실패 지표 제공
- HotpotQA 등 멀티홉 질의응답 데이터셋에서의 효과 검증
- AUROC, ECE 등 다양한 지표를 통한 모델의 교정 성능 평가
에이전트형 검색 증강 생성 (Agentic Retrieval-Augmented Generation, RAG) 시스템의 신뢰할 수 있는 배포를 위해서는 다단계 추론 파이프라인이 실패할 수 있는 시점을 추정하는 메커니즘이 필요합니다. 본 논문은 플래너 (planner), 평가자 (evaluator), 생성자 (generator) 단계가 의미론적 발산 (semantic divergence) 및 생성자 자기 평가 (generator self-evaluation)로부터 도출된 불확실성 신호를 생성하는 불확실성 인지 에이전트형 검색 증강 생성 (RAG) 프레임워크를 제시합니다. 이러한 신호들은 베이지안 네트워크 (Bayesian Network, BN)를 통해 전파되어 시스템 수준의 불확실성을 추정하고, 워크플로 전반에 걸쳐 잠재적 실패 지점에 대한 노드 수준의 지표를 제공합니다. 이 접근 방식은 GPT-3.5-Turbo 및 GPT-4.1-Nano를 사용하여 StrategyQA 및 HotpotQA에서 평가되었으며, 판별력 (discrimination), 선택적 예측 (selective prediction) 및 교정 (calibration)을 평가하기 위해 ROC 곡선 아래 면적 (Area Under the Receiver Operating Characteristic Curve, AUROC), 정확도-거부 곡선 아래 면적 (Area Under the Accuracy-Rejection Curve, AUARC), 기대 교정 오차 (Expected Calibration Error, ECE) 및 브라이어 점수 (Brier Score)를 사용했습니다. 결과에 따르면, 베이지안 전파는 멀티홉 (multi-hop) 추론 단계에 걸쳐 불확실성이 축적되는 HotpotQA에서 더 효과적인 반면, StrategyQA는 잘못된 교정 (miscalibration) 및 신뢰할 수 없는 상류 신호 (upstream signals)로 인한 한계를 드러냅니다. 본 연구는 베이지안 불확실성 전파를 에이전트형 RAG 시스템 모니터링을 위한 유망하지만 예비적인 메커니즘으로 설정하며, 향후 해상 풍력 (Offshore Wind, OSW) 유지보수 의사결정 지원과 같은 산업 도메인에서의 검증이 필요함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기