arXiv논문2026. 06. 15. 03:40

합성 데이터 생성 (SDG)에서의 불균등한 영향 (Disparate Impact)

요약

합성 데이터 생성(SDG) 과정에서 민감한 그룹 간 데이터 효용이 불균등하게 나타나는 '불균등한 영향(Disparate Impact)' 문제를 분석합니다. 근사 오차, 추정 오차, 샘플링 오차의 원인을 규명하고 이를 개선하기 위한 그룹별 모델 학습 전략을 제안합니다.

핵심 포인트

SDG의 공정성 개념인 불균등한 영향(Disparate Impact) 재검토
근사 오차, 샘플링 오차, 차분 프라이버시로 인한 추정 오차 분석
분포 복잡도와 그룹 비율이 SDG 성능에 미치는 영향 조사
그룹별 SDG 모델 학습을 통한 효용 균등성 개선 방안 제시

우리는 생성된 레코드의 효용(utility)이 민감한 그룹 간에 동일한지를 평가하는 합성 데이터 생성 (SDG)의 공정성 개념인 불균등한 영향 (disparate impact)을 재검토합니다. 우리의 접근 방식은 관찰된 분포의 부당한 편향을 교정하는 문제를 다루는 기존의 공정 SDG 연구와는 차이가 있으며, 기존 연구들은 SDG를 실제 데이터의 분포와는 다른 분포를 학습하는 것으로 재정의합니다. 이와 대조적으로, 불균등하지 않은 영향 (non-disparate impact)은 합성 분포와 실제 분포가 동일할 때 현저하게 달성됩니다. 우리는 SDG가 해당 솔루션에 도달하지 못할 수 있는 이유를 밝히고, 왜 근사 오차 (approximation error) 및 추정 오차 (estimation error)가 발생하며 그룹 간에 불균등하게 나타날 수 있는지 논의합니다. 특히 우리는 분포 복잡도에 따른 SDG 방법론의 표현력 (expressive power), 그룹 비율로 인한 샘플링 오차 (sampling error), 그리고 차분 프라이버시 (differential privacy) 메커니즘에 의해 유도되는 추정 오차를 조사합니다. 우리는 확률적 그래픽 모델 (probabilistic graphical models)에 의존하는 SDG 방법론에 초점을 맞추어, 인공 데이터와 실제 데이터 모두에서 불균등한 영향이 나타나는 사례를 설명합니다. 또한 그룹별 SDG 모델을 학습하는 전략을 소개하고, 이것이 많은 설정에서 전체적인 효용과 효용의 균등성 (parity)을 어떻게 개선할 수 있는지 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

합성 데이터 생성 (SDG)에서의 불균등한 영향 (Disparate Impact)

요약

핵심 포인트

댓글