arXiv논문2026. 06. 25. 11:44

표 형식 파운데이션 모델(Tabular Foundation Models)의 어텐션 레이어(Attention Layers)에 존재하는 프라이버시

요약

표 형식 파운데이션 모델의 어텐션 메커니즘이 민감한 데이터를 유출하여 멤버십 추론 공격(MIA)을 가능하게 함을 입증했습니다. 이를 방어하기 위해 모델 재학습 없이도 유출을 줄이는 추론 시점 방어 기법을 제안합니다.

핵심 포인트

어텐션 메커니즘이 기존 신뢰도 기반 공격보다 강력한 멤버십 신호를 노출함
섀도우 모델이 필요 없는 새로운 공격 방식인 AMIA 제안
k-익명성 원칙을 활용한 추론 시점 방어 기법으로 데이터 유출 50% 감소
미세 조정(Fine-tuning)이 모델의 암기력을 높여 프라이버시 위험을 증폭시킴

표 형식 파운데이션 모델(Tabular foundation models)은 흔히 대규모의 합성 데이터(synthetic data) 컬렉션으로 사전 학습(pre-trained)되기 때문에 프라이버시 우려가 제한적일 것이라고 가정됩니다. 그러나 이러한 모델들은 인컨텍스트 학습(in-context learning)을 활용하며, 이 과정에서 민감한 기록들이 추론(inference) 시점에 레이블이 지정된 컨텍스트 예시(context examples)로서 직접 제공될 수 있습니다. 본 논문에서 우리는 어텐션 메커니즘(attention mechanism)을 통해 생성된 예측이 효과적인 멤버십 추론 공격(Membership Inference Attacks, MIAs)을 가능하게 할 만큼 충분한 정보를 유출한다는 것을 입증합니다. 이러한 취약점을 강조하기 위해, 우리는 트랜스포머(transformer) 어텐션 패턴의 집중도를 악용하는 섀도우 모델이 필요 없는 공격 방식인 AMIA(Attention-based Membership Inference Attack)를 제안합니다. 연구 결과에 따르면, 어텐션 메커니즘은 기존의 신뢰도 기반 공격(confidence-based attacks)을 능가하는 강력한 멤버십 신호를 드러내며, 특히 낮은 허위 양성(false-positive) 영역에서 평균 7.7%의 이득을 달성합니다. 이러한 위험을 완화하기 위해, 우리는 $k$-익명성($k$-anonymity) 원칙에서 영감을 얻은 추론 시점 방어(inference-time defence) 기법을 도입합니다. 이 접근 방식은 무작위 노이즈를 추가하거나 모델을 재학습시키지 않고도 컨텍스트-키(context-key) 표현의 고유성을 줄입니다. AMIA 점수를 통해 식별된 고위험 쿼리만을 대상으로 함으로써, 이 방어 기법은 예측 유용성을 단 3.9%의 성능 저하만으로 유지하면서, 해당 공격에 의한 멤버십 유출을 평균 50% 감소시키고 신뢰도 기반 공격에 대해서는 25% 감소시킵니다. 컨텍스트 예시가 취약하다는 것을 보여주는 것을 넘어, 우리는 미세 조정(fine-tuning)이 추가적인 프라이버시 위험 요인을 유발한다는 것을 추가로 입증합니다. 특히, 미세 조정 후 예측 신뢰도(prediction confidence)가 증가하는 샘플들은 MIA에 더 취약해지는데, 이는 미세 조정이 암기(memorisation)를 증폭시키고 신뢰도 변화(confidence shifts)를 통해 민감한 학습 정보를 노출할 수 있음을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

표 형식 파운데이션 모델(Tabular Foundation Models)의 어텐션 레이어(Attention Layers)에 존재하는 프라이버시

요약

핵심 포인트

댓글