연쇄적 재생을 통한 멤버십 신호 증폭
요약
대규모 생성 모델의 데이터 암기 문제를 탐지하기 위해 연쇄적 재생을 활용하는 MADreMIA 프레임워크를 제안합니다. 반복적인 생성 과정을 통해 멤버십 추론 공격(MIA)의 신호를 증폭하여 낮은 허위 양성률로 학습 데이터 포함 여부를 판별합니다.
핵심 포인트
- MADreMIA: 반복적 궤적을 활용한 모델 불가지론적 추론 프레임워크
- 연쇄적 생성(Chained Generations)을 통해 멤버십 증거 신호 강화
- 암기된 샘플은 반복 재생 시 높은 일관성과 느린 퇴화 특성을 보임
- 언어 모델, 확산 모델, IAR 등 다양한 모달리티에 적용 가능
대규모 생성 모델 (Large Generative Models)이 학습 데이터를 암기하는 경향은 개인정보 감사 및 저작권 집행을 위한 샘플 검증을 매우 중요하게 만듭니다. 현재의 멤버십 추론 공격 (Membership Inference Attack, MIA) 및 데이터셋 추론 (Dataset Inference, DI) 공격은 종종 단발성 생성 (one-shot generations)에 의존하며, 이는 약한 신호와 모달리티 (modalities) 전반에 걸친 제한된 민감도를 초래합니다. 모델 자가포식 장애 (Model Autophagy Disorder, MAD)에서 영감을 받아, 우리는 화이트박스 (white-box), 그레이박스 (gray-box), 블랙박스 (black-box) MIA 및 DI를 강화하는 모델 불가지론적 (model-agnostic) 프레임워크인 MADreMIA를 소개합니다. 대규모 생성 모델의 경우 실행이 불가능한 경우가 많은 섀도우 모델 (shadow model) 학습에 의존하는 대신, 우리 프레임워크는 반복적인 궤적 (iterative trajectories)을 통해 내재된 신호를 활용함으로써 확장 가능한 추론을 용이하게 합니다. 이 프로세스는 다양한 모달리티에 걸쳐 연쇄적 생성 (chained generations)을 활용하며, 여기서 각 출력은 다음의 입력으로 사용되어 낮은 허위 양성률 (False Positive Rate, FPR)에서 멤버십 증거를 개선합니다. 우리는 암기된 학습 샘플이 비멤버 생성물에 비해 반복적 재생 (iterative regeneration) 과정 동안 현저히 높은 일관성 (coherence)을 보이고 더 느린 퇴화 (degradation)를 나타낸다는 것을 입증합니다. 우리의 결과는 MADreMIA가 다양한 모델 제품군과 모달리티에 걸쳐 더 풍부한 신호를 제공함을 보여줍니다. 우리는 IAR, 확산 모델 (diffusion models), 언어 모델 (language models)에 대한 종합적인 평가와 함께 오디오 모델에 대한 잠재력을 보여주는 예비 결과를 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기