Split Conformal Prediction을 위한 최적의 데이터 분할에 대하여

Split Conformal Prediction (분할 등각 예측)을 포함한 Conformal Prediction (등각 예측) 및 그 변형들은 유한 샘플 커버리지 보장 (finite-sample coverage guarantees)을 갖는 예측 구간(prediction intervals) 또는 집합(sets)을 구축함으로써 불확실성 정량화 (uncertainty quantification)를 위한 분포 무관 (distribution-free) 프레임워크를 제공합니다. 이러한 구간의 통계적 효율성 (statistical efficiency)은 데이터를 훈련 (training) 샘플과 교정 (calibration) 샘플로 어떻게 분할하느냐에 따라 결정적으로 달라집니다. 실질적인 중요성에도 불구하고, 커버리지를 유지하면서 예측 구간의 길이를 최소화하는 훈련-교정 분할 (training-calibration split)에 대한 원칙적인 특성 규명은 여전히 미해결 상태로 남아 있습니다. 본 논문에서 우리는 Split Conformal Prediction에서의 최적 데이터 분할을 위한 이론적 프레임워크를 개발합니다. 먼저 일반적인 설정에서 문제를 분석하고, 대칭 (symmetric) 및 비대칭 (asymmetric) 체제 모두에서 길이 최적 분할 비율 (length-optimal split ratio)의 분석적 특성을 도출합니다. 그다음, 일반적인 결과가 선형 회귀 (linear regression), 비모수 회귀 (nonparametric regression), 신경망 (neural networks)을 포함하여 흔히 사용되는 여러 회귀 설정으로 어떻게 특수화되는지 보여줌으로써 프레임워크의 범위를 입증합니다. 또한 최적의 비율을 선택하기 위한 데이터 기반 방법을 설명합니다. 우리의 분석은 모델 관련 특징들이 훈련과 교정 사이의 샘플 최적 할당을 어떻게 지배하는지 명확히 하며, 더 짧은 예측 구간을 구축하기 위한 원칙적인 지침을 제공합니다. 합성 (synthetic) 데이터셋과 실제 데이터셋 모두에 대한 실험은 제안된 방법론이 다양한 실질적 시나리오 전반에 걸쳐 적용 가능함을 입증합니다.

Insights

Split Conformal Prediction을 위한 최적의 데이터 분할에 대하여

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법