본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 03:01

지도 미세 조정 (Supervised Finetuning)된 모델로부터 개인 식별 정보 (PII)의 재구성

요약

본 논문은 지도 미세 조정(SFT)된 모델이 학습 데이터에 포함된 개인 식별 정보(PII)를 유출할 수 있는 위험성을 처음으로 연구합니다. 의료 및 법률 분야의 다회차 Q&A 데이터셋을 구축하여 공격자의 추론 능력을 평가하였으며, 기존 방식보다 뛰어난 성능을 보이는 새로운 디코딩 알고리즘인 COVA를 제안합니다.

핵심 포인트

  • SFT 데이터셋에 포함된 민감한 PII가 모델을 통해 재구성될 수 있는 프라이버시 위험 존재
  • 의료 및 법률 도메인의 다회차 사용자 중심 Q&A 데이터셋을 통한 현실적인 유출 평가 수행
  • 접두사 기반 공격(prefix-based attacks) 환경에서 PII 재구성을 위한 새로운 알고리즘 COVA 제안
  • 공격자의 부분적인 지식만으로도 PII 재구성 성공률이 크게 높아질 수 있음을 확인

지도 미세 조정 (Supervised Finetuning, SFT)은 광범위한 사전 학습된 지식을 가진 대규모 언어 모델 (LLM)을 도메인 특화된 지시 이행 (instruction-following) 작업에 적응시키기 위한 주요 방법 중 하나가 되었습니다. 지시-응답 쌍으로 구성된 SFT 데이터셋에는 개인 식별 정보 (Personally Identifiable Information, PII)와 같은 민감한 데이터를 포함할 수 있는 사용자가 제공한 정보가 포함되는 경우가 많아, 프라이버시 문제가 제기되고 있습니다. 본 논문은 SFT 모델로부터 PII를 재구성하는 문제를 처음으로 연구합니다. 우리는 유출에 대한 현실적인 평가를 가능하게 하기 위해, PII를 포함하는 민감한 도메인, 특히 의료 및 법률 환경에서의 다회차(multi-turn), 사용자 중심 Q&A 데이터셋을 구축합니다. 이러한 데이터셋을 사용하여, 미세 조정 데이터셋에 대해 다양한 수준의 지식을 가진 공격자가 SFT 과정에서 데이터가 사용된 개인에 대한 민감한 정보를 어느 정도까지 추론할 수 있는지 평가합니다. 재구성 설정에서, 우리는 접두사 기반 공격 (prefix-based attacks) 하에서 PII를 재구성하기 위한 새로운 디코딩 알고리즘인 COVA를 제안하며, 이는 기존의 추출 방법들을 지속적으로 능가합니다. 우리의 결과는 공격자의 부분적인 지식만으로도 재구성 성공률을 크게 높일 수 있으며, 유출 정도는 PII 유형에 따라 상당히 다르다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0