arXiv논문2026. 06. 03. 11:32

PURGE: 유지 데이터 가이드 삭제를 통한 투영된 언러닝 (Projected Unlearning via Retain-Guided

요약

지속 학습(CL)과 머신 언러닝(MU)의 쌍대성을 활용한 새로운 언러닝 알고리즘 PURGE를 제안합니다. 유지 데이터의 손실을 제한하고 은닉 표현을 조정하여, 성능 저하 없이 특정 데이터를 효과적으로 삭제합니다.

핵심 포인트

지속 학습과 머신 언러닝의 근본적 쌍대성 활용
그래디언트 투영을 통한 유지 데이터 성능 보존
은닉 표현 단계에서의 다층 표현 삭제 수행
유지 데이터 혼동 타겟을 통한 멤버십 추론 공격 방어
자기 조절 중단 기준 도입으로 수동 튜닝 제거

우리는 단순하지만 아직 충분히 활용되지 않은 관찰 결과인 지속 학습 (Continual Learning, CL)과 머신 언러닝 (Machine Unlearning, MU)이 근본적으로 쌍대적인 (dual) 문제라는 점에 기반하여 구축된 머신 언러닝 알고리즘인 PURGE를 제안합니다. CL은 기존의 것을 잊지 않으면서 새로운 태스크를 학습하려고 시도하며, MU는 유지된 성능을 해치지 않으면서 특정 데이터를 삭제하려고 시도합니다. 이는 동일한 근본적 긴장 관계를 반대 방향으로 나타내는 것입니다. PURGE는 A-GEM (Chaudhry et al., 2019)의 그래디언트 투영 (gradient projection)을 조정하여 모든 언러닝 단계가 유지 데이터셋 (retain-set)의 손실 (loss)을 증가시키지 않도록 제한함으로써 이러한 쌍대성을 활용합니다. 이에 더해, PURGE는 다층 표현 삭제 (multi-layer representation erasure)를 수행하여, 중간층의 망각 데이터셋 (forget-set) 활성화 값을 유지 데이터 분포 (retain distribution) 쪽으로 밀어냄으로써 정보를 단순히 출력 단계에서 억제하는 것이 아니라 은닉 표현 (hidden representations)으로부터 제거합니다. 핵심적인 설계 선택은 유지 데이터 혼동 타겟 (retain-confusion target)입니다. 우리는 망각 데이터의 출력을 균등 분포 (uniform distribution)로 밀어내는 방식이 멤버십 추론 공격 (Membership Inference Attacks, MIA)에 의해 놀라울 정도로 쉽게 탐지된다는 것을 발견하였기에, 대신 모델이 유지 데이터에 대해 보이는 자연스러운 혼동 패턴을 타겟으로 삼았습니다. 이를 통해 언러닝된 모델을 처음부터 다시 학습시킨 모델과 구별하기 어렵게 만듭니다. 두 가지 자기 조절 중단 기준 (유지 손실 예산 및 망각 정확도 타겟)을 통해 알고리즘이 스스로 중단 시점을 결정할 수 있게 하여, 수동적인 에포크 (epoch) 튜닝의 필요성을 제거했습니다. 22개의 클래스 수준 망각 태스크에 걸친 5개의 데이터셋 (CIFAR-10, MNIST, SVHN, STL10, PathMNIST) 실험에서, PURGE는 유지 정확도를 96% 이상으로 일관되게 유지하면서 MIA AUROC를 이상적인 수치인 0.5에 가깝게 달성하였으며, 프라이버시-유용성 경계 (privacy-utility frontier)에서 그래디언트 상승 (gradient ascent), KL-uniform, 그리고 여러 발표된 베이스라인 모델들을 능가하는 성능을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

PURGE: 유지 데이터 가이드 삭제를 통한 투영된 언러닝 (Projected Unlearning via Retain-Guided

요약

핵심 포인트

댓글