지도 미세 조정 (Supervised Finetuning)된 모델로부터 개인 식별 정보 (PII)의 재구성

지도 미세 조정 (Supervised Finetuning, SFT)은 광범위한 사전 학습된 지식을 가진 대규모 언어 모델 (LLM)을 도메인 특화된 지시 이행 (instruction-following) 작업에 적응시키기 위한 주요 방법 중 하나가 되었습니다. 지시-응답 쌍으로 구성된 SFT 데이터셋에는 개인 식별 정보 (Personally Identifiable Information, PII)와 같은 민감한 데이터를 포함할 수 있는 사용자가 제공한 정보가 포함되는 경우가 많아, 프라이버시 문제가 제기되고 있습니다. 본 논문은 SFT 모델로부터 PII를 재구성하는 문제를 처음으로 연구합니다. 우리는 유출에 대한 현실적인 평가를 가능하게 하기 위해, PII를 포함하는 민감한 도메인, 특히 의료 및 법률 환경에서의 다회차(multi-turn), 사용자 중심 Q&A 데이터셋을 구축합니다. 이러한 데이터셋을 사용하여, 미세 조정 데이터셋에 대해 다양한 수준의 지식을 가진 공격자가 SFT 과정에서 데이터가 사용된 개인에 대한 민감한 정보를 어느 정도까지 추론할 수 있는지 평가합니다. 재구성 설정에서, 우리는 접두사 기반 공격 (prefix-based attacks) 하에서 PII를 재구성하기 위한 새로운 디코딩 알고리즘인 COVA를 제안하며, 이는 기존의 추출 방법들을 지속적으로 능가합니다. 우리의 결과는 공격자의 부분적인 지식만으로도 재구성 성공률을 크게 높일 수 있으며, 유출 정도는 PII 유형에 따라 상당히 다르다는 것을 보여줍니다.

Insights

지도 미세 조정 (Supervised Finetuning)된 모델로부터 개인 식별 정보 (PII)의 재구성

요약

핵심 포인트

댓글

1년 동안 운용하며 정착된 CLAUDE.md 양식 【복사해서 사용하는 템플릿 · 「폐지된 방침」 섹션 포함】

이 CFO는 방금 자신의 회사 주식을 저평가된 상태라고 불렀습니다 — 그가 옳다는 이유

주가 반등으로 자산 2,220억 달러를 기록하며 세계 5대 부호가 된 Zuckerberg

토론 주도 개발 (Debate-Driven Development): 코드를 두고 논쟁하는 AI 에이전트가 버그를 30% 더 많이 잡아내는 이유

이 CFO는 방금 자신의 회사 주식을 저평가된 상태라고 불렀습니다 — 그가 옳다는 이유

주가 반등으로 자산 2,220억 달러를 기록하며 세계 5대 부호가 된 Zuckerberg

토론 주도 개발 (Debate-Driven Development): 코드를 두고 논쟁하는 AI 에이전트가 버그를 30% 더 많이 잡아내는 이유