다중 관점 가우시안 프로세스를 통한 비매개변수적 기계 텍스트 탐지
요약
의역이나 스타일 전이 공격에 취약한 기존 기계 텍스트 탐지기의 한계를 극복하기 위해, 다중 관점 가우시안 프로세스 앙상블 기반의 비매개변수적 탐지 프레임워크를 제안합니다. 다양한 특징 관점을 결합하여 공격 비용을 높이고, 분포 외 데이터에 대한 신뢰할 수 있는 예측을 제공합니다.
핵심 포인트
- 다중 특징 관점(스타일, 가능성, 구조)을 활용한 앙상블 방식 제안
- 가우시안 프로세스를 통한 보정된 확률 및 OOD 데이터 기권 기능 제공
- 적대적 공격(의역, 스타일 전이)에 대한 탐지 강건성 확보
- DetectRL, RAID, PAN2025 벤치마크를 통한 성능 입증
의역(paraphrasing) 및 표적 스타일 전이(targeted style transfer)와 같은 적대적 조건은 기계 텍스트 탐지기(machine text detectors)의 정확도를 급격히 저하시킵니다. 그러나 하나의 문서는 여러 가지 상호 보완적인 신호(예: 스타일 특징(stylistic features), 가능성 및 순위 특징(likelihood and rank-order features), 구조적 특징(structural features))를 포함하고 있으며, 하나의 신호를 억제하는 공격이라 할지라도 다른 신호들은 온전하게 남겨둘 수 있습니다. 매개변수적 분류기(parametric classifier)는 충분한 지도 학습(supervision)이 주어지면 이러한 특징들을 결합하는 법을 배울 수 있지만, 분포 변화(distribution shifts, 예: 새로운 공격 또는 보지 못한 언어 모델)가 발생할 경우 확신을 가지고 잘못된 예측을 내릴 가능성이 높습니다. 이를 해결하기 위해, 우리는 동일한 문서에서 상호 보완적인 특징 관점(feature views)을 추출하고 가우시안 프로세스 앙상블(Gaussian process ensemble)을 통해 관점별 증거를 집계하는 다중 관점 비매개변수적 탐지 프레임워크를 제안합니다. 관점 전반에 걸쳐 증거를 집계함으로써, 공격자는 탐지의 여러 독립적인 축을 동시에 무력화해야 하며, 이는 회피 비용을 실질적으로 높입니다. 또한 가우시안 프로세스 정식화(Gaussian process formulation)는 보정된 확률(calibrated probabilities)과 분포 외(out-of-distribution) 입력에 대한 원칙적인 기권(abstention)을 제공하여, 높은 이해관계가 걸린 환경(high-stakes settings)에서의 신뢰할 수 있는 배포를 지원합니다. 우리는 다양한 생성기와 공격을 아우르는 세 가지 벤치마크인 DetectRL 및 RAID 벤치마크, 그리고 PAN2025 공유 과제(shared task)를 통해 평가를 수행하였으며, 우리의 다중 관점 탐지기가 고려된 공격 하에서도 강력한 성능을 유지하고, 홀드아웃 공격(held out attacks)에 대해 기존 방식보다 뛰어난 성능을 보임을 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기