탐지, 언러닝(Unlearn), 복구: 데이터 포이즈닝(Data Poisoning)으로부터 텍스트 요약 모델을 방어하기
요약
LLM의 파인튜닝 단계에서 발생하는 데이터 포이즈닝 공격을 탐지하고 복구하는 통합 방어 프레임워크를 제안합니다. 영향력 함수 분석과 행동 감사를 통해 공격을 식별하며, 언러닝 기법을 통해 모델 성능 저하를 최소화하면서 오염된 동작을 복구할 수 있음을 입증했습니다.
핵심 포인트
- 파인튜닝 단계의 데이터 포이즈닝 위협 분석
- 영향력 함수 및 의미론적 일관성 검사를 통한 탐지
- 블랙박스 환경에서의 행동 감사(Behavioral Auditing) 가능성
- 경사 상승 언러닝을 통한 모델 성능 유지 및 복구
- 85-92%의 높은 탐지 정밀도 달성
추상적 텍스트 요약(abstractive text summarization)을 위해 배포된 대규모 언어 모델(LLMs)에서 파인튜닝(fine-tuning) 중 발생하는 학습 단계 데이터 포이즈닝(data poisoning)은 심각한 위협이 됩니다. 이 환경에서는 작은 태스크 특화 데이터셋이 모델의 동작에 불균형적으로 큰 영향을 미치기 때문입니다. 이러한 설정에서 공격자는 표준 평가 지표를 유지하면서도 편향되거나 유해한 요약과 같은 지속적인 요약 실패를 유도하기 위해 파인튜닝 데이터를 조작합니다. 본 논문에서는 머신러닝 공급망 전반에 걸쳐 요약 모델의 파인튜닝 단계 포이즈닝을 탐지하고 교정하기 위한 통합적인 사후 방어(post-hoc defense) 프레임워크를 제시합니다. 실험 결과, 화이트박스(white-box) 설정에서 포이즈닝된 문서-요약 쌍은 비정상적으로 높은 학습 영향력(training influence)을 보였으며, 이는 의미론적 일관성 검사(semantic consistency checks)를 동반한 영향력 함수(influence-function) 분석을 통해 탐지가 가능함을 보여줍니다. 블랙박스(black-box) 설정에서 포이즈닝된 모델은 의미를 보존하는 섭동(semantics-preserving perturbations)에 대해 2~3배 더 높은 민감도를 나타내어, 학습 데이터에 대한 접근 없이도 행동 감사(behavioral auditing)가 가능함을 입증했습니다. 기존의 포이즈닝 공식 외에도, 본 연구는 사실 왜곡(factual distortion)과 표현 편향(representational bias)을 목표로 하는 새로운 공격을 도입하여, 포이즈닝이 기존의 경보를 울리지 않고도 요약 동작을 변화시킨다는 점을 보여줍니다. 적응형 공격(adaptive attacks) 하에서 9개의 아키텍처와 6개의 벤치마크 데이터셋을 대상으로 테스트한 결과, 우리의 방어 기법은 85-92%의 탐지 정밀도(detection precision)를 달성하였으며, 경사 상승 언러닝(gradient-ascent unlearning)은 최소한의 유용성 손실(ROUGE 점수 저하 0.6% 미만)로 원래 동작의 최대 96%를 복구했습니다. 이러한 결과는 파인튜닝 시점의 포이즈닝이 지속적인 구조적 아티팩트(structural artifacts)를 남긴다는 것을 나타내며, 전체 재학습 없이도 실질적인 탐지 및 배포 후 복구를 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기