arXiv논문2026. 06. 15. 12:27

머신 언러닝 (Machine Unlearning)의 행동 감사 (Behavioral Audit)에는 프라이버시 비용이 따른다

요약

머신 언러닝(MU)의 효과를 검증하는 감사 과정에서 발생하는 프라이버시 침해 문제를 다룹니다. 모델 소유자와 감사자 간의 불신 상황에서, 행동적 신호만으로는 데이터의 멤버십 정보를 보호하면서 불충분한 언러닝을 식별하기 어렵다는 프라이버시-감사 트레이드오프를 증명했습니다.

핵심 포인트

머신 언러닝 감사를 위한 표준화된 체계의 부재 지적
감사 과정에서 발생하는 프라이버시-감사 트레이드오프 증명
볼록 및 비볼록 모델 모두에서 프라이버시 긴장 관계 확인
프라이버시 보존형 감사 체계 설계의 필요성 제시

머신 언러닝 (Machine Unlearning, MU)을 통해 머신러닝 (Machine Learning) 모델에서 학습된 데이터를 제거하는 연구가 널리 이루어져 왔으나, MU를 감사 (auditing)하기 위한 합의된 체계는 아직 존재하지 않습니다. 기존 연구들은 부정직한 모델 소유자가 MU 실행을 피하기 위해 증거를 조작할 수 있다는 점과, 호기심 많은 감사자(및 공격자)가 제한된 접근 권한만으로도 모델과 학습 데이터의 프라이버시 민감 속성을 추론할 수 있다는 점을 보여주었습니다. 그러나 모델 소유자와 감사자 사이의 상호 불신 상황에서의 MU 감사는 아직 탐구되지 않은 영역으로 남아 있습니다. 본 연구에서는 이러한 시나리오에 대한 정보 이론적 (information-theoretic) 증명을 제공합니다. 볼록 (convex) 머신러닝 모델의 경우, 오직 모델에 대한 extit{행동적 (behavioral)} 신호 쿼리에만 의존하는 일반적인 감사 체계는 유지된 데이터 세트의 멤버십 정보 (membership information)를 드러내지 않고서는 불충분하게 언러닝된 모델을 식별할 수 없습니다. 따라서 부정직한 모델 소유자와 정직하지만 호기심 많은 (honest-but-curious) 감사자를 가정할 때, MU를 감사하는 것은 본질적인 프라이버시-감사 트레이드오프 (privacy-audit tradeoff)에 직면하게 됩니다. 볼록 모델에 대한 실험 결과는 이 결과를 강력하게 뒷받침하며, 추가 실험을 통해 이러한 프라이버시-감사 긴장 관계가 비볼록 (non-convex) 모델에서도 지속됨을 입증했습니다. 우리의 결과는 현실적인 감사자 위협 모델 하에서 프라이버시-감사 긴장 관계에 대한 더욱 신중한 고려를 촉구하며, MU 파이프라인을 위한 프라이버시 보존 감사 체계 설계에 대한 더욱 면밀한 검토를 위한 토대를 제공합니다. 또한, 저희는 코드 구현을 https://github.com/LiouTang/Behavioral-Unlearn-Audit 에서 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

머신 언러닝 (Machine Unlearning)의 행동 감사 (Behavioral Audit)에는 프라이버시 비용이 따른다

요약

핵심 포인트

댓글