서버는 무엇을 보는가? 분할 추론 (Split Inference) 시 대규모 언어 모델 (LLMs)의 개인정보 유출 이해
요약
분할 추론(Split Inference) 환경에서 LLM의 중간 활성화 값을 통해 클라이언트 입력을 재구성할 수 있는 보안 취약성을 분석합니다. 새로운 공격 기법인 ActInv와 취약성 지표인 PAF를 제안하며, 이를 방어하기 위한 PriPert 방법론을 제시합니다.
핵심 포인트
- 분할 추론 시 중간 활성화 값을 통한 입력 재구성 가능성 입증
- 레이어별 개인정보 유출 취약성을 정량화하는 PAF 지표 개발
- 기존 섭동 기반 방어 기법의 한계점 분석
- 재구성 오류를 최대화하는 PriPert 방어 기법 제안
자원 제약이 있는 장치에 대규모 언어 모델 (LLMs)을 배포하는 것은 여전히 어려운 과제이며, 이는 계산 부담을 줄이고 중간 활성화 값 (intermediate activations)만을 전송하여 개인정보 보호를 강화하기 위해 모델을 클라이언트와 서버 간에 분할하는 분할 추론 (split inference)에 대한 관심을 불러일으키고 있습니다. 그러나 분할 추론의 개인정보 보호 능력, 특히 LLM의 맥락에서의 능력은 철저하게 조사되지 않았습니다. 이러한 공백을 메우기 위해, 우리는 클라이언트의 입력을 재구성하기 위해 중간 활성화 값 매칭 문제를 해결하는 ActInv를 소개합니다. 광범위한 평가를 통해 ActInv가 가우시안 노이즈 주입 (Gaussian noise injection) 및 활성화 희소화 (activation sparsification)와 같은 일반적인 섭동 기반 방어 (perturbation-based defenses)가 존재하는 상황에서도 높은 충실도의 재구성을 달성함을 입증합니다. 이러한 취약성을 체계적으로 이해하기 위해, 우리는 재구성에 대한 레이어의 고유한 저항성을 정량화하는 지표인 섭동 증폭 계수 (Perturbation Amplification Factor, PAF)를 개발합니다. 우리의 분석은 개인정보 취약성이 레이어 전체에 걸쳐 균일하지 않으며, 일부 레이어는 유출에 매우 취약한 반면 다른 레이어는 자연적인 저항력을 제공한다는 것을 보여줍니다. 나아가, 우리는 역전파 (backpropagation) 동안 재구성 오류를 최대화하도록 섭동 방향을 보정함으로써 방어 효과를 크게 향상시킬 수 있음을 입증합니다. 이러한 통찰을 바탕으로 우리는 PriPert를 설계하고 개인정보 보호, 유용성 및 계산 오버헤드를 포괄하는 종합적인 평가를 수행하여 그 효과를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기