에이전트형 RAG 파이프라인을 위한 베이지안 불확실성 전파: 멀티홉 질의응답에 대한 개념 증명 연구

에이전트형 검색 증강 생성 (Agentic Retrieval-Augmented Generation, RAG) 시스템의 신뢰할 수 있는 배포를 위해서는 다단계 추론 파이프라인이 실패할 수 있는 시점을 추정하는 메커니즘이 필요합니다. 본 논문은 플래너 (planner), 평가자 (evaluator), 생성자 (generator) 단계가 의미론적 발산 (semantic divergence) 및 생성자 자기 평가 (generator self-evaluation)로부터 도출된 불확실성 신호를 생성하는 불확실성 인지 에이전트형 검색 증강 생성 (RAG) 프레임워크를 제시합니다. 이러한 신호들은 베이지안 네트워크 (Bayesian Network, BN)를 통해 전파되어 시스템 수준의 불확실성을 추정하고, 워크플로 전반에 걸쳐 잠재적 실패 지점에 대한 노드 수준의 지표를 제공합니다. 이 접근 방식은 GPT-3.5-Turbo 및 GPT-4.1-Nano를 사용하여 StrategyQA 및 HotpotQA에서 평가되었으며, 판별력 (discrimination), 선택적 예측 (selective prediction) 및 교정 (calibration)을 평가하기 위해 ROC 곡선 아래 면적 (Area Under the Receiver Operating Characteristic Curve, AUROC), 정확도-거부 곡선 아래 면적 (Area Under the Accuracy-Rejection Curve, AUARC), 기대 교정 오차 (Expected Calibration Error, ECE) 및 브라이어 점수 (Brier Score)를 사용했습니다. 결과에 따르면, 베이지안 전파는 멀티홉 (multi-hop) 추론 단계에 걸쳐 불확실성이 축적되는 HotpotQA에서 더 효과적인 반면, StrategyQA는 잘못된 교정 (miscalibration) 및 신뢰할 수 없는 상류 신호 (upstream signals)로 인한 한계를 드러냅니다. 본 연구는 베이지안 불확실성 전파를 에이전트형 RAG 시스템 모니터링을 위한 유망하지만 예비적인 메커니즘으로 설정하며, 향후 해상 풍력 (Offshore Wind, OSW) 유지보수 의사결정 지원과 같은 산업 도메인에서의 검증이 필요함을 시사합니다.

Insights

에이전트형 RAG 파이프라인을 위한 베이지안 불확실성 전파: 멀티홉 질의응답에 대한 개념 증명 연구

요약

핵심 포인트

댓글

예측: 다음 AI 주식 분할 대상은 누구인가 (힌트: Micron이나 Sandisk가 아닙니다)

예측: Nike, 12개월 이내에 Dow Jones Industrial Average에서 퇴출되고 2개의 소비자 중심 거대 기업 중 하나로

Tesla의 지난 분기 판매량 증가, Musk에 대한 반발이 정점을 지났다는 신호일 가능성

강세장 편향: 고용 데이터 및 AI 열풍이 주식 시장을 견인

예측: 다음 AI 주식 분할 대상은 누구인가 (힌트: Micron이나 Sandisk가 아닙니다)

예측: Nike, 12개월 이내에 Dow Jones Industrial Average에서 퇴출되고 2개의 소비자 중심 거대 기업 중 하나로

Tesla의 지난 분기 판매량 증가, Musk에 대한 반발이 정점을 지났다는 신호일 가능성

강세장 편향: 고용 데이터 및 AI 열풍이 주식 시장을 견인