표 형식 파운데이션 모델(Tabular Foundation Models)의 어텐션 레이어(Attention Layers)에 존재하는 프라이버시
요약
표 형식 파운데이션 모델의 어텐션 메커니즘이 민감한 데이터를 유출하여 멤버십 추론 공격(MIA)을 가능하게 함을 입증했습니다. 이를 방어하기 위해 모델 재학습 없이도 유출을 줄이는 추론 시점 방어 기법을 제안합니다.
핵심 포인트
- 어텐션 메커니즘이 기존 신뢰도 기반 공격보다 강력한 멤버십 신호를 노출함
- 섀도우 모델이 필요 없는 새로운 공격 방식인 AMIA 제안
- k-익명성 원칙을 활용한 추론 시점 방어 기법으로 데이터 유출 50% 감소
- 미세 조정(Fine-tuning)이 모델의 암기력을 높여 프라이버시 위험을 증폭시킴
표 형식 파운데이션 모델(Tabular foundation models)은 흔히 대규모의 합성 데이터(synthetic data) 컬렉션으로 사전 학습(pre-trained)되기 때문에 프라이버시 우려가 제한적일 것이라고 가정됩니다. 그러나 이러한 모델들은 인컨텍스트 학습(in-context learning)을 활용하며, 이 과정에서 민감한 기록들이 추론(inference) 시점에 레이블이 지정된 컨텍스트 예시(context examples)로서 직접 제공될 수 있습니다. 본 논문에서 우리는 어텐션 메커니즘(attention mechanism)을 통해 생성된 예측이 효과적인 멤버십 추론 공격(Membership Inference Attacks, MIAs)을 가능하게 할 만큼 충분한 정보를 유출한다는 것을 입증합니다. 이러한 취약점을 강조하기 위해, 우리는 트랜스포머(transformer) 어텐션 패턴의 집중도를 악용하는 섀도우 모델이 필요 없는 공격 방식인 AMIA(Attention-based Membership Inference Attack)를 제안합니다. 연구 결과에 따르면, 어텐션 메커니즘은 기존의 신뢰도 기반 공격(confidence-based attacks)을 능가하는 강력한 멤버십 신호를 드러내며, 특히 낮은 허위 양성(false-positive) 영역에서 평균 7.7%의 이득을 달성합니다. 이러한 위험을 완화하기 위해, 우리는 $k$-익명성($k$-anonymity) 원칙에서 영감을 얻은 추론 시점 방어(inference-time defence) 기법을 도입합니다. 이 접근 방식은 무작위 노이즈를 추가하거나 모델을 재학습시키지 않고도 컨텍스트-키(context-key) 표현의 고유성을 줄입니다. AMIA 점수를 통해 식별된 고위험 쿼리만을 대상으로 함으로써, 이 방어 기법은 예측 유용성을 단 3.9%의 성능 저하만으로 유지하면서, 해당 공격에 의한 멤버십 유출을 평균 50% 감소시키고 신뢰도 기반 공격에 대해서는 25% 감소시킵니다. 컨텍스트 예시가 취약하다는 것을 보여주는 것을 넘어, 우리는 미세 조정(fine-tuning)이 추가적인 프라이버시 위험 요인을 유발한다는 것을 추가로 입증합니다. 특히, 미세 조정 후 예측 신뢰도(prediction confidence)가 증가하는 샘플들은 MIA에 더 취약해지는데, 이는 미세 조정이 암기(memorisation)를 증폭시키고 신뢰도 변화(confidence shifts)를 통해 민감한 학습 정보를 노출할 수 있음을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기