arXiv논문2026. 06. 26. 10:50

의사결정 정렬 기반의 불확실성 정량화 평가

요약

기존의 불확실성 추정 지표가 실제 의사결정의 유용성과 일치하지 않는 문제를 지적합니다. 의사결정 정렬(decision-alignment) 프레임워크를 통해 기존 지표의 결함을 밝히고, 실제 유용성과 정렬되는 새로운 '사전 가중 유용성 지표'를 제안합니다.

핵심 포인트

기존 불확실성 지표와 실제 의사결정 유용성 간의 불일치 확인
의사결정 정렬(decision-alignment) 평가 프레임워크 도입
실제 유용성과 일관되게 정렬되는 사전 가중 유용성 지표 제안
현재 UQ 평가 프로토콜의 한계 및 개선 방향 제시

머신러닝에서의 불확실성 추정치(Uncertainty estimates)는 일반적으로 음의 로그 가능도(negative log-likelihood) 및 기대 교정 오차(expected calibration error)와 같은 일반적인 지표를 사용하여 평가되지만, 이러한 지표에서 좋은 성능을 보이는 것이 반드시 다운스트림 의사결정(downstream decisions)에서의 높은 유용성(utility)을 의미하지는 않습니다. 본 연구에서는 어떤 평가 지표가 다운스트림 유용성과 의미 있게 정렬되는지를 밝혀내는 기준인 의사결정 정렬(decision-alignment)을 소개합니다. 이 프레임워크를 적용하여, 우리는 널리 사용되는 많은 불확실성 지표들이 일반적인 의사결정 문제와 정렬되지 않았거나, 다운스트림 작업에 대한 병리적인 사전 믿음(pathological prior beliefs)을 인코딩하고 있음을 보여줍니다. 그런 다음, 우리는 의사결정 정렬된 불확실성 평가를 제공하는 적절한 점수 규칙(proper scoring rules)의 특수한 클래스인 사전 가중 유용성 지표(prior-weighted utility metrics)를 제안합니다. 벤치마크 실험과 실제 사례 연구 전반에 걸쳐, 우리의 지표는 기존의 지표들과 달리 실제 실현된 의사결정 유용성(realized decision utility)과 일관되게 정렬됩니다. 우리의 결과는 현재의 UQ(Uncertainty Quantification) 평가 프로토콜의 결함을 드러내며, 기존 지표를 의사결정 관련 UQ 평가로 나아가게 하는 원칙적인 확장 방안을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

의사결정 정렬 기반의 불확실성 정량화 평가

요약

핵심 포인트

댓글