방어하기 더 어려워진 공격: 암시적 강화 및 은폐 재작성을 통한 중국어 독성 공격 연구

대규모 언어 모델 (LLMs)은 명시적인 표현을 넘어선 강력한 독성 (Toxicity) 평가를 필요로 합니다. 이러한 설정은 독성이 의미론적 간접성과 표면적 은폐 (Obfuscation)가 결합될 수 있는 중국어 환경에서는 여전히 충분히 탐구되지 않은 상태입니다. 본 연구에서는 배포용 회피 도구가 아닌, 통제된 레드팀 (Red-team) 평가 및 방어 데이터 생성을 위한 프레임워크인 중국어 암시적 독성 공격 (Chinese Implicit Toxicity Attack, CITA)을 소개합니다. CITA는 유해한 의도를 보존하고, 암시성을 높이며, 통제된 표면 변형을 추가하기 위해 다음의 3단계 과정을 사용합니다: (i) 유해 의도 학습 (Harmful Intent Learning), (ii) 암시적 독성 강화 (Implicit Toxicity Enhancement), (iii) 은폐 변형 재작성 (Obfuscation Variant Rewriting). CITA로 생성된 평가 샘플에 대해 테스트된 7개의 탐지기는 평균 공격 성공률 (ASR) 69.48%에 달하는 상당한 미탐지 (Missed-detection) 위험을 보였습니다. 인간 평가를 통해서도 유해성이 보존되고 암시성 및 회피성이 증가했음을 추가로 확인했습니다. 하류 방어 애플리케이션 (Downstream defense application)으로서, 우리는 CITA로 생성된 레드팀 데이터로 중국어 암시적 독성 방어 (Chinese Implicit Toxicity Defense, CITD) 모델을 미세 조정 (Fine-tune)하였으며, 이러한 데이터가 추가 학습을 통해 강건성 (Robustness)을 향상시킬 수 있음을 보여주었습니다.

Insights

방어하기 더 어려워진 공격: 암시적 강화 및 은폐 재작성을 통한 중국어 독성 공격 연구

요약

핵심 포인트

댓글

더 많은 프롬프트가 필요한 것이 아니라, 당신의 누수(Leaks)를 찾아야 합니다

AMD, Helios 본격 생산 돌입에 따라 2030년까지 컴퓨팅 시장 2조 달러 규모 도달 전망

AMD와의 파트너십 소식에 Cerebras 주가 상승

기관 자본의 귀환: 비트코인 (Bitcoin) ETF, 6일 연속 9억 달러 유입

AMD, Helios 본격 생산 돌입에 따라 2030년까지 컴퓨팅 시장 2조 달러 규모 도달 전망

AMD와의 파트너십 소식에 Cerebras 주가 상승

기관 자본의 귀환: 비트코인 (Bitcoin) ETF, 6일 연속 9억 달러 유입