독해로 독을 맞다: 적대적 학습을 통한 소수 데이터 기계 생성 텍스트 감지 강건성 향상
요약
본 논문은 기계 생성 텍스트(MGT) 검출기의 성능과 강건성을 향상시키기 위해 적대적 학습 프레임워크인 REACT를 제안합니다. REACT는 검색 증강 생성(RAG)을 활용하여 인간화된 적대적 예제를 생성하는 공격자와, 이로부터 대비적 객체 학습을 통해 소수 데이터 환경에서의 감지 성능과 강건성을 동시에 높이는 검출기를 결합합니다. 실험 결과, REACT는 기존 최고 수준의 검출기들보다 높은 평균 F1 점수를 달성하고, 강력한 적대적 공격에 대한 성공률을 크게 감소시키는 것으로 나타났습니다.
핵심 포인트
- MGT 검출기는 소수 데이터 환경과 인간화된 공격에 취약하다는 문제를 해결하는 것이 목표입니다.
- 제안된 REACT 프레임워크는 RAG를 활용하여 매우 자연스러운 적대적 예제를 생성하는 '공격자'와, 이를 통해 대비적 객체 학습을 수행하는 '검출기'의 공진화(co-evolution) 구조를 가집니다.
- 이러한 적대적 학습 방식을 통해 소수 데이터 환경에서의 감지 성능(F1 점수)과 공격에 대한 강건성(ASR 감소)을 동시에 향상시킬 수 있습니다.
- 실험적으로 REACT는 기존 SOTA 검출기 대비 평균 F1 점수를 4.95 포인트, 평균 공격 성공률을 3.66 퍼센트 포인트 개선함을 입증했습니다.
기계 생성 텍스트 (MGT) 검출은 온라인 정보 생태계를 규제하는 데 필수적이지만, 기존 검출기는 소수 데이터 설정에서 성능이 낮고 공격적인 인간화 공격에 취약합니다. 제한된 감독 하에 정확한 검출기를 구축하기 위해 우리는 위협 모델링 관점을 채택하고, 출력만 있는 블랙박스 설정에서 공격자의 관점에서 검출기의 취약점을 연구했습니다. 이러한 관점에 의해 영감을 받아, 우리는 소수 데이터 감지 성능과 공격에 대한 강건성을 모두 향상시키는 적대적 학습 프레임워크인 RAG-GuidEd Attacker Strengthens ConTrastive Few-shot Detector (REACT) 를 제안합니다. REACT 는 인간화 지향적인 공격자와 목표 검출기를 결합합니다: 공격자는 검색 증강 생성 (RAG) 을 활용하여 감지를 회피할 수 있는 매우 인간적인 적대적 예제를 제작하고, 검출기는 이러한 적대자로부터 대비적 객제 (contrastive objective) 로 학습하여 소수 데이터 표현 학습을 안정화하고 강건성을 향상시킵니다. 우리는 공격자와 검출기를 교대로 업데이트하여 그들의 공진화를 가능하게 합니다. 4 개의 데이터셋과 4 개의 샷 크기, 3 개의 랜덤 시드에서의 실험은 REACT 가 8 개 최강의 (SOTA) 검출기보다 평균 감지 F1 을 4.95 포인트 향상시키고, 4 개의 강력한 공격 하에서 평균 공격 성공률 (ASR) 을 3.66 퍼센트 포인트 감소함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기