arXiv논문2026. 06. 04. 13:21

LLM 사후 학습 과정에서의 순차적 데이터 오염 (Sequential Data Poisoning)

요약

LLM 사후 학습 과정에서 여러 공격자가 단계별로 데이터를 오염시키는 '순차적 데이터 오염' 위협 모델을 제안합니다. 개별 단계의 공격은 미미해 보일 수 있으나, 단계 간 상호작용을 통해 공격 효과가 가산되거나 상호 보완적으로 작용하여 심각한 취약성을 유발함을 입증했습니다.

핵심 포인트

SFT와 DPO 단계의 오염은 가산적(additive)으로 작용함
SFT와 PPO 단계의 오염은 상호 보완적(complementary)으로 작용함
개별 단계 보안 분석만으로는 복합적인 취약성을 과소평가할 위험이 있음
사후 학습 파이프라인 전체에 대한 통합적 보안 검토 필요

LLM (Large Language Model) 사후 학습 (post-training)은 지도 미세 조정 (Supervised Fine-Tuning, SFT)에 이어 인간 피드백 기반 강화학습 (Reinforcement Learning from Human Feedback, RLHF) 또는 직접 선호 최적화 (Direct Preference Optimization, DPO)와 같은 여러 단계를 거쳐 진행되며, 각 단계는 서로 다르고 잠재적으로 신뢰할 수 없는 출처로부터 데이터를 가져옵니다. 기존 문헌들은 각 학습 단계에서 데이터 오염 (data poisoning) 공격이 발생할 수 있다고 가정하지만, 여러 공격자가 존재할 가능성은 간과합니다. 전체 사후 학습 파이프라인의 신뢰성을 연구하기 위해, 우리는 여러 공격자가 SFT 및 선호도 데이터셋을 각각 별도로 오염시키는 순차적 데이터 오염 (sequential data poisoning) 위협 모델을 제안합니다. 이 위협 모델 하에서, 우리는 '단일 공격자 환상 (single-attacker illusion)'을 식별했습니다. 즉, 개별적으로 평가된 각 공격자는 무시할 수 있는 위협만을 가하는 것처럼 보입니다. 그러나 공격자들이 단계별로 협력할 때 실제 취약성이 드러납니다. SFT $\to$ DPO 파이프라인에서 그들의 기여는 가산적 (additive)입니다. 즉, 고정된 오염 예산을 여러 단계에 나누어 배분하는 것이 어느 한 단계에만 집중시키는 것보다 더 뛰어난 성능을 보입니다. SFT $\to$ PPO 파이프라인에서 그들의 기여는 상호 보완적 (complementary)입니다. SFT나 보상 모델 (reward model) 오염 중 어느 것도 개별적으로는 성공하지 못하지만, 이들의 조합은 성공합니다. 이러한 발견은 개별 사후 학습 단계에 대한 보안 분석이, 단계 간의 상호작용을 통해서만 나타나는 복합적인 취약성을 체계적으로 과소평가하고 있음을 보여줍니다. 코드는 https://github.com/jcksanderson/sequential-poisoning 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 사후 학습 과정에서의 순차적 데이터 오염 (Sequential Data Poisoning)

요약

핵심 포인트

댓글