본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:59

연속적인 AI 에이전트 평가를 위한 분포 무관 불확실성 정량화 (Distribution-Free Uncertainty

요약

본 연구는 연속적인 AI 에이전트 평가를 위해 Split Conformal Prediction과 Adaptive Conformal Inference(ACI)를 적용하여 분포에 관계없이 신뢰할 수 있는 품질 점수 커버리지를 보장하는 프레임워크를 제안합니다. 다중 에이전트 파이프라인을 위한 구성적 불확실성 경계와 순위 안정성을 위한 컨포멀 기권 규칙을 개발하였으며, 실시간 신호 분석을 통해 에이전트의 조건부 커버리지가 공칭 수준에 잘 부합함을 입증했습니다.

핵심 포인트

  • Split Conformal Prediction 및 ACI를 활용하여 24시간 지평 전반에서 0.02 미만의 낮은 교정 오차 달성
  • 다중 에이전트 파이프라인을 위한 구성적 불확실성 경계(Compositional uncertainty bounds) 개발
  • 제어된 오랭킹률을 가진 쌍체 순위(Pairwise rankings)를 위한 컨포멀 기권 규칙 및 FDR 교정 기권 적용
  • 실시간 신호 분석을 통해 에이전트의 조건부 커버리지가 공칭 수준 근처에 집중됨을 확인
  • 교차 소스 감성 발산이 순위 불안정성을 예측하는 유의미한 지표임을 입증

우리는 분할 컨포멀 예측 (Split Conformal Prediction) 및 적응형 컨포멀 추론 (Adaptive Conformal Inference, ACI)을 연속적인 AI 에이전트 평가에 적용하여, 예측된 품질 점수에 대해 분포 무관 (Distribution-free) 커버리지 보장을 제공합니다. 컨포멀 구간 (Conformal intervals)은 24시간 지평 (Horizon) 전반에 걸쳐 모든 공칭 수준 (Nominal levels)에서 0.02 미만의 교정 오차 (Calibration error)를 달성하며, ACI는 에이전트 출시 이후 구간을 35% 정확하게 확장한 뒤 다시 수렴합니다. 나아가 우리는 다중 에이전트 파이프라인을 위한 구성적 불확실성 경계 (Compositional uncertainty bounds)를 개발하였으며 (단계 간 상관관계 rho가 [-0.5, 0.9] 범위인 시뮬레이션을 통해 검증됨), 제어된 오랭킹률 (False-ranking rate)을 가진 쌍체 순위 (Pairwise rankings)를 위한 컨포멀 기권 규칙 (Conformal abstention rule), 그리고 리더보드 규모의 다중 테스트를 위한 FDR 교정 기권 (FDR-corrected abstention)을 개발했습니다. 매시간 수집되는 18개의 실시간 신호를 통해 50개의 에이전트를 평가한 결과, 에이전트별 조건부 커버리지 (Conditional coverage)가 공칭 수준 주변에 잘 집중되어 있음 (평균 80.4%, 에이전트의 90%가 [72%, 90%] 범위 내 존재)을 보여주었으며, 교차 소스 감성 발산 (Cross-source sentiment divergence)이 순위 불안정성을 예측함 (r=0.64, p<0.01)을 입증했습니다. 순환성 제어 검증 (Circularity-controlled validation)을 통해 이 프레임워크가 벤치마크 이상의 신호를 포착함을 확인했습니다 (rho_s=0.52, p<0.01, n=35). 코드와 데이터는 CC BY 4.0 라이선스 하에 공개됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0