개인정보 보호 LLM 개인화: 분리 가능한 전문가 아키텍처 제안
요약
본 논문은 사용자 데이터를 공유 가중치에 직접 통합하는 기존의 LLM 개인화 방식이 가진 데이터 삭제 및 프라이버시 문제를 해결하기 위해 '분리 가능한 전문가 아키텍처(Separable Expert Architecture)'를 제안합니다. 이 아키텍처는 정적 기반 모델, 사용자의 행동을 형성하는 컴포저블 도메인-전문가 LoRA 어댑터, 그리고 사용자별 삭제 가능 프록시(Deletable User Proxies)의 3계층 구조로 구성됩니다. 핵심은 개인 데이터가 공유 가중치에 절대 영향을 주지 않도록 분리함으로써, 모델 역전(Innv
핵심 포인트
- 개인 데이터와 공유 가중치를 분리하는 3계층 아키텍처를 통해 프라이버시 보호 및 개인화 동시 달성.
- 사용자별 정보는 '삭제 가능한 사용자 프록시'에 저장되어, 삭제가 결정론적 언러닝(deterministic unlearning)을 보장함.
- 개인 데이터가 공유 가중치에 들어가지 않으므로 모델 역전(Model Inversion), 멤버십 추론(Membership Inference) 등 공격으로부터 구조적으로 보호됨.
- 프록시 제거 후 기준선 복귀를 통해 개인화 효과 검증 (KL divergence 약 0.21 nats, 82-89% pass rate).
기존의 LLM 개인화 방식은 사용자 정보를 공유 가중치(shared weights)에 직접 통합하는 경향이 있어, 특정 사용자의 데이터를 제거하려면 전체 모델을 재훈련해야 하는 비현실적인 계산적 난제에 직면합니다. 본 논문은 이러한 문제를 해결하기 위해 '분리 가능한 전문가 아키텍처(Separable Expert Architecture)'를 제안하며, 이는 개인 데이터와 공유 가중치를 근본적으로 분리하는 3계층 구조를 채택했습니다.
이 아키텍처는 다음 세 가지 핵심 구성 요소로 이루어져 있습니다:
- 정적 기반 모델 (Static Base Model): 전체 사용자에게 공통으로 사용되는 기본 지식과 능력을 담당합니다.
- 컴포저블 도메인-전문가 LoRA 어댑터 (Composable Domain-Expert LoRA Adapters): 특정 영역이나 행동 패턴을 형성하는 역할을 합니다. 이 어댑터들은 사용자 데이터를 공유 가중치에 주입하지 않고도 모델의 행동 양식을 효과적으로 조정합니다.
- 사용자별 프록시 아티팩트 (Per-User Proxy Artefacts): 각 사용자의 고유한 개인 정보를 담는 격리된 저장소입니다. 이 프록시는 핵심적인 역할을 수행하는데, 사용자 데이터가 삭제되면 모델의 영향력도 결정론적으로 제거(deterministic unlearning)됨을 의미합니다.
이러한 구조적 분리는 단순히 데이터를 격리하는 것을 넘어, 강력한 프라이버시 보장으로 이어집니다. 개인 정보가 공유 가중치에 절대 침투하지 않기 때문에, 모델 역전(Model Inversion), 멤버십 추론(Membership Inference), 또는 훈련 데이터 추출(Training-Data Extraction)과 같은 공격 유형에 대해 아키텍처 자체가 방어 메커니즘을 제공합니다.
가장 중요한 기술적 진보는 '머신 언러닝(Machine Unlearning)'의 접근 방식 변화입니다. 기존에는 가중치 편집(weight-editing)이라는 매우 복잡하고 계산 집약적인 문제로 간주되었으나, 본 아키텍처는 이를 **결정론적 삭제 연산(deterministic deletion operation)**으로 변환합니다. 이는 개인화 기능을 유지하면서도 프라이버시를 보장하는 동시에, 차분 프라이버시 확률적 경사 하강법 (Differentially Private Stochastic Gradient Descent, DP-SGD)을 통한 공유 모델 개선과도 호환성을 갖추고 있습니다.
실험 결과는 Phi-3.5-mini 및 Llama-3.1-8B와 같은 실제 모델에 적용되었으며, 사용자별 차별화가 성공적으로 이루어짐을 입증했습니다. 특히 프록시를 제거했을 때 기준선으로의 복귀가 확인되었고 (KL divergence 약 0.21 nats), 높은 검증 통과율(82-89%)과 함께 교차 사용자 간 오염이 거의 없는(near-zero cross-user contamination) 결과를 보여주었습니다. 이는 개인화 효과를 극대화하면서도 프라이버시 침해 위험을 최소화하는 혁신적인 방법을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기