arXiv논문2026. 06. 19. 12:18

커버리지 제약 조건 하에서의 데이터 편향 완화 및 공정성의 비용

요약

머신러닝 모델의 교차적 편향을 완화하기 위해 커버리지 제약 조건을 통합한 새로운 프레임워크를 제안합니다. 데이터 효율성을 높이면서도 공정성 허용 범위에 따른 데이터 수정 비용을 정량화하여 최적의 절충안을 제시합니다.

핵심 포인트

교차적 하위 그룹의 표현을 강제하는 커버리지 제약 조건 도입
정수 선형 계획법을 통한 편향 완화 공식화
공정성 허용 범위에 따른 데이터 수정 비용(Price of Fairness) 특성화
데이터 효율성과 예측 정확도 사이의 최적 균형 달성

머신러닝 (Machine learning) 모델은 인종 및 성별과 같이 여러 민감한 속성이 교차하는 지점에 있는 개인들에 대해 차별적인 결과나 저하된 성능을 보이는 것으로 나타났습니다. 이는 부분적으로 서로 연관된 두 가지 과제에서 기인합니다: 편향(잠재적으로 교차적(intersectional)인 편향)을 정량화하기 위한 원칙적인 측정 방식의 부족, 그리고 훈련 데이터 내 교차적 하위 그룹(intersectional subgroups)의 불충분한 표현입니다. 우리는 최근의 편향 완화 프레임워크를 확장하여, 교차적 하위 그룹을 포함한 그룹 전반에 걸쳐 충분한 표현을 강제하는 커버리지 제약 조건 (coverage constraints)을 통합했습니다. 모든 그룹에 대해 정확히 제로(zero) 편향을 달성하는 것은 데이터 효율적이지 않을 수 있으므로 (즉, 방대한 양의 데이터를 필요로 할 수 있음), 우리의 솔루션은 커버리지 제약 조건을 만족하면서 편향에서의 작은 근사 오차 (approximation errors)를 대가로 더 높은 데이터 효율성을 얻습니다. 또한 우리는 모든 완화 전략에 대해 최적화하는 정수 선형 계획법 (integer linear program)으로 편향 완화를 공식화하고, 공정성 허용 범위 (fairness tolerance)의 함수로서 최소 데이터 수정 비용인 공정성의 비용 (price of fairness)을 특성화합니다. 이는 규제가 특정 공정성 임계값을 요구할 수 있는 법적 준수 측면과, 실무자가 편향 감소와 데이터 수정(특히 데이터 구매) 비용 사이에서 정보에 입각한 절충안을 만들 수 있게 하는 데이터 거버넌스 측면 모두에서 필수적입니다. 우리는 공개적으로 사용 가능한 데이터셋을 통해 우리의 기술을 평가하였으며, 우리의 프레임워크를 통한 편향 완화가 여러 분류기 (classifiers) 전반에서 예측 정확도를 유지한다는 것과, 통계적 고려 사항에 의해 동기 부여된 커버리지 제약 조건이 다운스트림 머신러닝 (downstream ML) 성능을 보존하는 데 필수적임을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

커버리지 제약 조건 하에서의 데이터 편향 완화 및 공정성의 비용

요약

핵심 포인트

댓글