방어하기 더 어려워진 공격: 암시적 강화 및 은폐 재작성을 통한 중국어 독성 공격 연구
요약
중국어 환경에서 LLM의 독성을 평가하기 위한 새로운 프레임워크인 CITA를 제안합니다. CITA는 유해 의도 학습, 암시성 강화, 은폐 변형의 3단계를 통해 기존 탐지기를 우회하는 공격을 수행하며, 이를 통해 방어 모델의 강건성을 높이는 연구를 다룹니다.
핵심 포인트
- 중국어 특화 암시적 독성 공격 프레임워크 CITA 소개
- 3단계 과정을 통한 유해 의도 보존 및 은폐 기술 적용
- 기존 탐지기들의 높은 미탐지 위험(ASR 69.48%) 확인
- CITA 데이터를 활용한 방어 모델(CITD) 미세 조정 및 강건성 향상
대규모 언어 모델 (LLMs)은 명시적인 표현을 넘어선 강력한 독성 (Toxicity) 평가를 필요로 합니다. 이러한 설정은 독성이 의미론적 간접성과 표면적 은폐 (Obfuscation)가 결합될 수 있는 중국어 환경에서는 여전히 충분히 탐구되지 않은 상태입니다. 본 연구에서는 배포용 회피 도구가 아닌, 통제된 레드팀 (Red-team) 평가 및 방어 데이터 생성을 위한 프레임워크인 중국어 암시적 독성 공격 (Chinese Implicit Toxicity Attack, CITA)을 소개합니다. CITA는 유해한 의도를 보존하고, 암시성을 높이며, 통제된 표면 변형을 추가하기 위해 다음의 3단계 과정을 사용합니다: (i) 유해 의도 학습 (Harmful Intent Learning), (ii) 암시적 독성 강화 (Implicit Toxicity Enhancement), (iii) 은폐 변형 재작성 (Obfuscation Variant Rewriting). CITA로 생성된 평가 샘플에 대해 테스트된 7개의 탐지기는 평균 공격 성공률 (ASR) 69.48%에 달하는 상당한 미탐지 (Missed-detection) 위험을 보였습니다. 인간 평가를 통해서도 유해성이 보존되고 암시성 및 회피성이 증가했음을 추가로 확인했습니다. 하류 방어 애플리케이션 (Downstream defense application)으로서, 우리는 CITA로 생성된 레드팀 데이터로 중국어 암시적 독성 방어 (Chinese Implicit Toxicity Defense, CITD) 모델을 미세 조정 (Fine-tune)하였으며, 이러한 데이터가 추가 학습을 통해 강건성 (Robustness)을 향상시킬 수 있음을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기