TabPATE: 공개 데이터 없이 수행하는 차분 프라이버시 기반의 표 형식 데이터 인컨텍스트 학습 (In-Context Learning)

표 형식 파운데이션 모델 (Tabular foundation models)은 작은 레이블된 데이터셋으로부터 정확한 인컨텍스트 학습 (In-Context Learning, ICL)을 가능하게 하지만, 컨텍스트에 배치된 개인 정보 기록이 모델 예측을 통해 유출될 수 있습니다. 우리는 먼저 기본적인 멤버십 추론 공격 (Membership Inference Attacks)조차 표 형식 ICL에 대해 성공할 수 있음을 보여주며, 이를 통해 공식적인 프라이버시 보호의 필요성을 제시합니다. 이어서 우리는 공개된 분포 내 (In-distribution) 데이터가 필요하지 않은, 표 형식 ICL을 위한 차분 프라이버시 (Differentially Private) 기반의 PATE 스타일 방어 기법인 TabPATE를 소개합니다. TabPATE는 개인 정보가 포함된 컨텍스트를 교사 모델 (Teacher models)들에 분할하여 할당하고, 합성된 표 형식 쿼리 (Synthetic tabular queries)에 대해 이들의 레이블을 프라이버시를 유지하며 집계한 뒤, 결과로 나온 레이블된 쿼리들을 학생 컨텍스트 (Student context)로 공개합니다. 표 형식의 특징 (Features)은 범위가 제한적이고 상대적으로 저차원이기 때문에, 특징 범위만으로도 또는 가볍게 프라이버시 처리가 된 주변 분포 (Marginals)로부터 유용한 쿼리를 생성할 수 있습니다. 다양한 표 형식 벤치마크 전반에 걸쳐, TabPATE는 멤버십 추론 성공률을 무작위 수준에 가깝게 낮추면서도 경쟁력 있는 유용성 (Utility)을 유지하며, 공개 데이터 없이 프라이버시를 보호하는 표 형식 ICL을 위한 실질적인 경로를 제공합니다.

Insights

TabPATE: 공개 데이터 없이 수행하는 차분 프라이버시 기반의 표 형식 데이터 인컨텍스트 학습 (In-Context Learning)

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들