대규모 언어 모델(LLMs)의 개인정보 보호 및 데이터 감사를 위한 자연 식별자 (Natural Identifiers)
요약
LLM의 개인정보 보호 감사를 위해 자연 식별자(NIDs)를 활용하는 새로운 연구를 소개합니다. NIDs는 암호화 해시나 단축 URL처럼 데이터셋에 자연적으로 존재하는 무작위 문자열로, 재훈련 없이도 차분 프라이버시 감사와 데이터셋 추론을 가능하게 합니다.
핵심 포인트
- 기존 카나리 데이터 방식의 높은 비용과 재훈련 문제 해결
- 프라이빗 홀드아웃 데이터셋 없이도 데이터셋 추론 가능
- NIDs를 활용한 확장 가능한 사후 감사(Post-hoc Audits) 방법론 제시
- 암호화 해시 및 단축 URL을 활용한 무작위 문자열 생성
대규모 언어 모델 (LLMs)의 개인정보 보호를 평가하는 것은 상당한 어려움을 수반합니다. 특히, 차분 프라이버시 (Differential Privacy)를 감사하기 위한 기존의 대부분의 방법은 훈련 과정 중에 특별히 제작된 카나리 데이터 (Canary Data)를 삽입해야 하며, 이는 비용이 많이 드는 재훈련 없이 이미 훈련된 모델을 감사하는 데 있어 비실용적입니다. 또한, 의심되는 데이터셋이 모델 훈련에 사용되었는지 여부를 감사하는 데이터셋 추론 (Dataset Inference)은 프라이빗한 비멤버 홀드아웃 데이터셋 (Private Non-member Held-out Dataset)에 대한 접근 없이는 불가능합니다. 그러나 이러한 홀드아웃 데이터셋은 의심되는 데이터와 동일한 분포 (IID)를 가져야 하기 때문에 실제 사례에서는 사용 불가능하거나 구축하기 어려운 경우가 많습니다. 이러한 한계점들은 확장 가능한 사후 감사 (Post-hoc Audits) 능력을 심각하게 저해합니다. 이러한 감사를 가능하게 하기 위해, 본 연구는 앞서 언급한 과제들에 대한 새로운 해결책으로 자연 식별자 (Natural Identifiers, NIDs)를 도입합니다. NIDs는 암호화 해시 (Cryptographic Hashes) 및 단축 URL (Shortened URLs)과 같이 일반적인 LLM 훈련 데이터셋에서 자연적으로 발생하는 구조화된 무작위 문자열입니다. 이들의 형식은 동일한 분포에서 무제한의 추가 무작위 문자열을 생성할 수 있게 하며, 이는 감사를 위한 대안적인 카나리 (Canaries) 및 데이터셋 추론을 위한 동일 분포 홀드아웃 데이터 (Same-distribution Held-out Data)로 작용할 수 있습니다. 우리의 평가 결과는 실제로 NIDs를 사용함으로써, 재훈련 없이 사후 차분 프라이버시 감사를 용이하게 할 수 있으며, 프라이빗한 비멤버 홀드아웃 데이터셋 없이도 NIDs를 포함하는 모든 의심 데이터셋에 대해 데이터셋 추론을 가능하게 함을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기