arXiv논문2026. 06. 30. 13:11

무해한 샘플 속에 숨겨진 유해한 감독(Supervision)에 대한 방어

요약

무해한 학습 샘플 내에 유해한 감독 신호를 숨기는 '임베디드 공격'의 위험성을 분석하고, 이를 방어하기 위한 새로운 학습 기법을 제안합니다. 기존 가드레일의 한계를 지적하며 토큰 수준의 정규화를 활용한 DR-SFT 방식을 소개합니다.

핵심 포인트

무해한 태스크 내에 유해한 QA 쌍을 삽입하는 임베디드 공격 제안
기존 가드레일이 예시 수준의 정교한 공격을 탐지하는 데 한계가 있음을 증명
토큰 수준 정규화를 적용한 Dual-Reference SFT(DR-SFT) 방법론 제시
단순 데이터 필터링을 넘어 미세 조정 단계에서의 유해성 완화 가능성 확인

기존의 방어 기제들은 유해한 콘텐츠가 다운스트림 미세 조정 (fine-tuning) 데이터에 명시적으로 혼합되어 있을 때는 효과적이지만, 정교하게 제작된 샘플들은 대신 무해한 태스크 (tasks) 내부에 유해한 감독 (supervision)을 숨길 수 있습니다. 우리는 유해한 QA 쌍 (QA pairs)이 무해한 학습 샘플 내에 삽입되는 임베디드 공격 (Embedded Attack)을 제안하며, 대표적인 가드레일 (guardrails)들이 예시 수준 (example level)에서 이를 탐지하는 데 종종 실패한다는 것을 보여줍니다. 이를 해결하기 위해, 우리는 토큰 수준의 정규화 (token-level regularization)를 통해 DPO 스타일의 대조적 목적 함수 (contrastive objective) 설계를 SFT에 적응시킨 이중 참조 SFT (Dual-Reference SFT, DR-SFT)를 제안하며, 이는 거친 데이터 필터링 (coarse data filtering)을 넘어 유해한 미세 조정 (harmful fine-tuning)을 완화합니다.

AI 자동 생성 콘텐츠

원문 바로가기

무해한 샘플 속에 숨겨진 유해한 감독(Supervision)에 대한 방어

요약

핵심 포인트

댓글