arXiv논문2026. 06. 01. 11:01

Prediction-Powered Inference의 산업화: 신뢰할 수 있는 GenAI 및 Agentic Systems 평가를 위한

요약

에이전트 시스템의 신뢰할 수 있는 평가를 위해 PPI(Prediction-powered inference) 방법론을 통합한 오픈 소스 Python 라이브러리 GLIDE를 소개합니다. GLIDE는 비용이 많이 드는 인간 주석과 편향된 LLM 판사 사이의 간극을 메워 유효한 신뢰 구간을 제공합니다.

핵심 포인트

PPI 기반의 편향 제거 추정치 및 신뢰 구간 제공
scipy 스타일의 API를 통한 다양한 PPI 추정기 통합
Monte Carlo 검증 스위트 및 방법론 선택 의사결정 트리 포함
에이전트 평가 시 주석 비용의 상당한 절감 효과 입증

Agentic Systems (에이전트 시스템)의 신뢰할 수 있는 평가는 유효한 불확실성 (Uncertainty)을 가진 편향되지 않은 추정치를 필요로 하지만, 표준적인 관행은 비용이 많이 드는 인간 주석 (Human Annotation)과 편향된 LLM-as-judge (LLM 판사) 프록시 사이에서 갈등하고 있습니다. Prediction-powered inference (PPI, 예측 기반 추론)는 이 두 가지를 결합하여 유효한 신뢰 구간 (Confidence Intervals)을 가진 편향 제거 추정치를 제공하지만, 다양한 방법론들이 부분적인 구현 상태로 여러 논문에 흩어져 있습니다. 우리는 최첨단 PPI 추정기 (PPI++, Stratified PPI, Predict-Then-Debias 및 그 층화 변형, Active Statistical Inference)와 샘플러 (Uniform, Stratified, Active, Cost-optimal)를 평균 추정 (Mean Estimation)에 특화된 scipy 스타일의 API 아래 통합하는 오픈 소스 Python 라이브러리인 GLIDE를 소개합니다. GLIDE는 재현 가능한 Monte Carlo 검증 스위트, 방법론 선택을 위한 경험적 근거 기반의 의사결정 트리(Decision Tree), 그리고 동일한 정밀도에서 상당한 주석 비용 절감을 보여주는 Agentic Evaluation (에이전트 평가) 사례 연구를 함께 제공합니다. GLIDE 패키지는 다음 URL에서 사용할 수 있습니다: https://github.com/EmertonData/glide

AI 자동 생성 콘텐츠

원문 바로가기

Prediction-Powered Inference의 산업화: 신뢰할 수 있는 GenAI 및 Agentic Systems 평가를 위한

요약

핵심 포인트

댓글