망각에는 이웃이 있다: 머신 언러닝(Machine Unlearning)에서의 국소적 부수적 망각
요약
머신 언러닝 과정에서 특정 데이터 삭제 시 인접한 데이터까지 함께 망각되는 '국소적 부수적 망각' 현상을 분석합니다. 이를 해결하기 위해 망각 세트의 이웃 데이터를 활용한 '국소 교사 증류' 전략을 제안하여 언러닝 품질을 개선합니다.
핵심 포인트
- 머신 언러닝 시 데이터 간 기하학적 근접성에 따른 국소적 실패 발생
- 공유된 표현을 통해 망각 효과가 인접 예제로 전파되는 메커니즘 규명
- 국소 교사 증류(Local Teacher Distillation)를 통한 완화 전략 제안
- CIFAR-100 실험을 통해 재학습 모델과의 높은 유사성 입증
머신 언러닝 (Machine unlearning)은 전체 재학습 (retraining) 없이 선택된 학습 예제의 영향을 제거하는 것을 목표로 합니다. 표준적인 평가 방식은 종종 정확도 (accuracy) 및 망각 기반 점수와 같은 집계 지표 (aggregate metrics)로 언러닝의 품질을 요약하는데, 이는 국소적인 실패 (localized failures)를 숨길 수 있습니다. 우리는 삭제 후 재학습된 모델의 예측값과 언러닝된 모델의 예측값을 비교함으로써, 예제 수준 (example level)에서 이러한 실패 모드를 연구합니다. 우리는 이러한 점별 불일치 (pointwise discrepancy)가 매우 불균일할 수 있음을 보여줍니다. 즉, 경사 상승법 (gradient-ascent) 및 무작위 레이블링 (random-labeling) 방법의 경우, 유지 세트 (retain-set) 미세 조정 (fine-tuning) 여부와 관계없이 망각 세트 (forget set)와의 기하학적 근접성 (geometric proximity)에 따라 불일치가 증가합니다. 우리는 이 현상을 국소적 부수적 망각 (localized collateral forgetting)이라고 부릅니다. 우리의 분석은 이 효과 뒤에 숨겨진 메커니즘을 식별합니다. 언러닝 중에 사용되는 대리 타겟 (surrogate targets)이 재학습에 의해 유도된 국소적 예측 구조 (local prediction structure)와 일치하지 않을 수 있으며, 이러한 불일치가 공유된 표현 (shared representations)을 통해 인접한 예제들로 전파된다는 것입니다. 이 메커니즘에 착안하여, 우리는 무작위 타겟을 망각 세트의 유지된 이웃 (retained neighbors)들로만 학습된 작은 교사 모델 (teacher model)의 소프트 레이블 (soft labels)로 대체하는 간단한 완화 전략인 국소 교사 증류 (Local Teacher Distillation)를 제안합니다. CIFAR-100 부분 클래스 삭제 (partial-class deletion) 실험에서, 이 국소 교사는 경쟁력 있는 집계 언러닝 지표를 유지하면서도, 특히 망각 세트 근처에서 언러닝된 모델을 재학습된 모델에 실질적으로 더 가깝게 만듭니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기