arXiv논문2026. 05. 28. 12:37

해석 가능성이 불평등하게 분배될 때: 하이브리드 해석 가능 모델에서의 공정성

요약

하이브리드 해석 가능 모델에서 특정 인구 통계 그룹이 블랙박스 모델로 불균형하게 라우팅되는 공정성 문제를 다룹니다. 새로운 지표인 ICD를 제안하고, 제약 조건을 통해 정확도 손실 없이 해석 가능성 격차를 줄일 수 있음을 입증했습니다.

핵심 포인트

하이브리드 모델의 라우팅 결정에서 발생하는 절차적 공정성 문제 제기
해석 가능성 커버리지 격차(ICD)라는 새로운 측정 지표 공식화
중간 투명성 영역에서 상당한 수준의 ICD가 존재함을 확인
커버리지 격차 제약 조건을 통해 정확도 저하 없이 ICD 완화 가능

하이브리드 해석 가능 모델 (Hybrid interpretable models)은 일부 사례를 투명한 구성 요소 (transparent component)에 할당하고 나머지는 블랙박스 모델 (black-box model)로 넘김으로써, 두 모델을 결합합니다. 이러한 설계는 정확도 (accuracy)와 해석 가능성 (interpretability) 사이의 유연한 절충 (tradeoffs)을 가능하게 하지만, 동시에 독특한 절차적 공정성 (procedural fairness) 문제를 야기합니다. 즉, 특정 인구 통계학적 그룹 (demographic groups)은 체계적으로 해석 가능한 결정을 받는 반면, 다른 그룹은 불균형적으로 블랙박스로 라우팅 (routed)될 수 있습니다. 우리는 이 문제를 하이브리드 해석 가능 모델의 라우팅 결정에 적용되는 인구 통계적 패리티 (demographic-parity) 스타일의 측정 지표인 해석 가능성 커버리지 격차 (Interpretability Coverage Disparity, ICD)로 공식화합니다. 예측 다중성 (predictive multiplicity)의 도구들을 사용하여, 우리는 네 가지 하이브리드 해석 가능 학습 방법, 세 가지 표준 공정성 벤치마크 데이터셋, 그리고 여러 민감한 속성 (sensitive attributes)에 걸쳐 ICD를 연구합니다. 우리의 실험은 해석 가능한 구성 요소와 블랙박스 구성 요소가 모두 활발하게 사용되는 중간 투명성 영역 (intermediate transparency regimes)에서 상당한 ICD가 존재함을 보여줍니다. 나아가 우리는 단순한 커버리지 격차 제약 조건 (coverage-disparity constraints)이 정확도와 희소성 (sparsity)에 미치는 영향은 미미하면서도, 정확한 하이브리드 학습 방법 (exact hybrid learning methods)에서 ICD를 크게 줄일 수 있음을 보여줍니다. 여러 설정에서 ICD 완화는 표준 알고리즘 공정성 지표 (algorithmic fairness metrics) 또한 개선합니다. 이러한 결과는 하이브리드 해석 가능 모델이 예측 공정성 (predictive fairness)뿐만 아니라, 개인과 그룹 전체에 해석 가능성을 어떻게 할당하는지에 대해서도 감사 (audited)를 받아야 함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

해석 가능성이 불평등하게 분배될 때: 하이브리드 해석 가능 모델에서의 공정성

요약

핵심 포인트

댓글