arXiv논문2026. 05. 20. 10:59

연속적인 AI 에이전트 평가를 위한 분포 무관 불확실성 정량화 (Distribution-Free Uncertainty

요약

본 연구는 연속적인 AI 에이전트 평가를 위해 Split Conformal Prediction과 Adaptive Conformal Inference(ACI)를 적용하여 분포에 관계없이 신뢰할 수 있는 품질 점수 커버리지를 보장하는 프레임워크를 제안합니다. 다중 에이전트 파이프라인을 위한 구성적 불확실성 경계와 순위 안정성을 위한 컨포멀 기권 규칙을 개발하였으며, 실시간 신호 분석을 통해 에이전트의 조건부 커버리지가 공칭 수준에 잘 부합함을 입증했습니다.

핵심 포인트

Split Conformal Prediction 및 ACI를 활용하여 24시간 지평 전반에서 0.02 미만의 낮은 교정 오차 달성
다중 에이전트 파이프라인을 위한 구성적 불확실성 경계(Compositional uncertainty bounds) 개발
제어된 오랭킹률을 가진 쌍체 순위(Pairwise rankings)를 위한 컨포멀 기권 규칙 및 FDR 교정 기권 적용
실시간 신호 분석을 통해 에이전트의 조건부 커버리지가 공칭 수준 근처에 집중됨을 확인
교차 소스 감성 발산이 순위 불안정성을 예측하는 유의미한 지표임을 입증

우리는 분할 컨포멀 예측 (Split Conformal Prediction) 및 적응형 컨포멀 추론 (Adaptive Conformal Inference, ACI)을 연속적인 AI 에이전트 평가에 적용하여, 예측된 품질 점수에 대해 분포 무관 (Distribution-free) 커버리지 보장을 제공합니다. 컨포멀 구간 (Conformal intervals)은 24시간 지평 (Horizon) 전반에 걸쳐 모든 공칭 수준 (Nominal levels)에서 0.02 미만의 교정 오차 (Calibration error)를 달성하며, ACI는 에이전트 출시 이후 구간을 35% 정확하게 확장한 뒤 다시 수렴합니다. 나아가 우리는 다중 에이전트 파이프라인을 위한 구성적 불확실성 경계 (Compositional uncertainty bounds)를 개발하였으며 (단계 간 상관관계 rho가 [-0.5, 0.9] 범위인 시뮬레이션을 통해 검증됨), 제어된 오랭킹률 (False-ranking rate)을 가진 쌍체 순위 (Pairwise rankings)를 위한 컨포멀 기권 규칙 (Conformal abstention rule), 그리고 리더보드 규모의 다중 테스트를 위한 FDR 교정 기권 (FDR-corrected abstention)을 개발했습니다. 매시간 수집되는 18개의 실시간 신호를 통해 50개의 에이전트를 평가한 결과, 에이전트별 조건부 커버리지 (Conditional coverage)가 공칭 수준 주변에 잘 집중되어 있음 (평균 80.4%, 에이전트의 90%가 [72%, 90%] 범위 내 존재)을 보여주었으며, 교차 소스 감성 발산 (Cross-source sentiment divergence)이 순위 불안정성을 예측함 (r=0.64, p<0.01)을 입증했습니다. 순환성 제어 검증 (Circularity-controlled validation)을 통해 이 프레임워크가 벤치마크 이상의 신호를 포착함을 확인했습니다 (rho_s=0.52, p<0.01, n=35). 코드와 데이터는 CC BY 4.0 라이선스 하에 공개됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

연속적인 AI 에이전트 평가를 위한 분포 무관 불확실성 정량화 (Distribution-Free Uncertainty

요약

핵심 포인트

댓글