연쇄적 재생을 통한 멤버십 신호 증폭

대규모 생성 모델 (Large Generative Models)이 학습 데이터를 암기하는 경향은 개인정보 감사 및 저작권 집행을 위한 샘플 검증을 매우 중요하게 만듭니다. 현재의 멤버십 추론 공격 (Membership Inference Attack, MIA) 및 데이터셋 추론 (Dataset Inference, DI) 공격은 종종 단발성 생성 (one-shot generations)에 의존하며, 이는 약한 신호와 모달리티 (modalities) 전반에 걸친 제한된 민감도를 초래합니다. 모델 자가포식 장애 (Model Autophagy Disorder, MAD)에서 영감을 받아, 우리는 화이트박스 (white-box), 그레이박스 (gray-box), 블랙박스 (black-box) MIA 및 DI를 강화하는 모델 불가지론적 (model-agnostic) 프레임워크인 MADreMIA를 소개합니다. 대규모 생성 모델의 경우 실행이 불가능한 경우가 많은 섀도우 모델 (shadow model) 학습에 의존하는 대신, 우리 프레임워크는 반복적인 궤적 (iterative trajectories)을 통해 내재된 신호를 활용함으로써 확장 가능한 추론을 용이하게 합니다. 이 프로세스는 다양한 모달리티에 걸쳐 연쇄적 생성 (chained generations)을 활용하며, 여기서 각 출력은 다음의 입력으로 사용되어 낮은 허위 양성률 (False Positive Rate, FPR)에서 멤버십 증거를 개선합니다. 우리는 암기된 학습 샘플이 비멤버 생성물에 비해 반복적 재생 (iterative regeneration) 과정 동안 현저히 높은 일관성 (coherence)을 보이고 더 느린 퇴화 (degradation)를 나타낸다는 것을 입증합니다. 우리의 결과는 MADreMIA가 다양한 모델 제품군과 모달리티에 걸쳐 더 풍부한 신호를 제공함을 보여줍니다. 우리는 IAR, 확산 모델 (diffusion models), 언어 모델 (language models)에 대한 종합적인 평가와 함께 오디오 모델에 대한 잠재력을 보여주는 예비 결과를 제시합니다.

Insights

연쇄적 재생을 통한 멤버십 신호 증폭

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법