arXiv논문2026. 06. 09. 12:06

대규모 언어 모델 (LLM) 적응 과정에서의 실증적 프라이버시 보호 벤치마킹

요약

LLM 적응 과정에서 차분 프라이버시(DP) 적용 시 발생하는 실질적인 프라이버시 위험을 벤치마킹한 연구입니다. 데이터 분포 변화와 적응 방법론이 프라이버시 취약성에 미치는 영향을 분석하여 안전한 모델 배포를 위한 통찰을 제공합니다.

핵심 포인트

데이터 분포가 사전 학습 데이터와 유사할수록 프라이버시 위험 증가
LoRA와 같은 매개변수 효율적 미세 조정이 OOD 데이터에서 높은 보호 효과 달성
이론적 DP 보장과 실제 멤버십 추론 공격 간의 간극 확인
분포 변화(Distribution Shifts)가 프라이버시 취약성의 핵심 요인임

최근 연구들은 민감한 애플리케이션을 위해 대규모 언어 모델 (LLMs)을 적응시키는 과정에 차분 프라이버시 (Differential Privacy, DP)를 적용하여 이론적인 보장을 제공해 왔습니다. 그러나 LLM의 사전 학습 (Pretraining) 과정에서 발생하는 데이터 중첩 및 적응 데이터와의 상호 의존성으로 인해, DP를 적용하더라도 프라이버시가 침해될 수 있다는 점 때문에 그 실질적인 효과는 여전히 불분명합니다. 이 문제를 실제로 분석하기 위해, 우리는 강력한 멤버십 추론 (Membership Inference) 및 카나리 데이터 추출 (Canary Data Extraction)과 같은 최첨단 공격 기법을 사용하여 DP 적응 환경의 LLM에서 발생하는 프라이버시 위험을 조사합니다. 우리는 적응 데이터의 분포를 사전 학습 데이터와의 정확한 중첩부터, 분포 내 (In-distribution, IID) 사례, 그리고 완전히 분포 외 (Out-of-distribution, OOD) 사례에 이르기까지 체계적으로 변화시키며 이러한 위험을 벤치마킹합니다. 또한, 서로 다른 적응 방법과 다양한 프라이버시 체계가 취약성에 어떠한 영향을 미치는지 평가합니다. 우리의 결과는 분포 변화 (Distribution Shifts)가 프라이버시 취약성에 강력한 영향을 미친다는 것을 보여줍니다. 즉, 직접적인 데이터 중첩이 없더라도 적응 데이터가 사전 학습 분포에 가까울수록 동일한 이론적 보장 하에서의 실질적인 프라이버시 위험은 더 높아집니다. 우리는 LoRA와 같은 매개변수 효율적 미세 조정 (Parameter-efficient Fine-tuning) 방법이 OOD 데이터에 대해 가장 높은 실증적 프라이버시 보호를 달성한다는 것을 발견했습니다. 우리의 벤치마크는 DP LLM 적응에서 실질적인 프라이버시를 달성하기 위한 핵심 요인들을 식별하며, 민감한 환경에서 맞춤형 모델을 배포하기 위한 실행 가능한 통찰력을 제공합니다. 향후 우리는 적응 프라이버시를 넘어, LLM의 전체 사전 학습-적응 파이프라인 전반에 걸친 위험을 식별하고 평가하기 위한 총체적 프라이버시 평가를 위한 구조화된 프레임워크를 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델 (LLM) 적응 과정에서의 실증적 프라이버시 보호 벤치마킹

요약

핵심 포인트

댓글