AI 생성 텍스트 탐지에서 저확률 토큰의 중요성: 다중 스케일 불확실성 관점
요약
AI 생성 텍스트 탐지의 한계를 극복하기 위해 저확률 토큰의 불확실성에 집중하는 새로운 방법론인 Uncertainty를 제안합니다. 상용구 지배 문제와 단일 확률 점수의 취약성을 해결하여 탐지 성능과 강건성을 높였습니다.
핵심 포인트
- 저확률 토큰의 로그 확률을 활용해 상용구 지배 문제 완화
- Rényi entropy를 통한 전역적 분포 형태 포착으로 안정성 확보
- Uncertainty++ 확장을 통한 조건부 독립 샘플링 구현
- 16개 LLM 및 7개 데이터셋 실험을 통해 높은 일반화 능력 입증
AI 생성 텍스트가 인간의 글쓰기와 점점 더 섞이면서, 오정보(misinformation), 학술적 오용, 코퍼스 오염(corpora contamination)과 같은 실질적인 위험이 커지고 있습니다. 통계적 탐지기(statistical detectors)는 효율성과 일반화 능력 측면에서 매력적이지만, 두 가지 주요 한계점을 가지고 있습니다. (i) 상용구 지배(Boilerplate dominance): 인간과 LLM(Large Language Model)의 글쓰기에서 공통적으로 나타나는 상용구 토큰(boilerplate tokens)이 판별 신호를 압도할 수 있습니다. (ii) 취약한 점 추정(Brittle point estimates): 단일 확률 점수에 의존하는 방식은 적대적 조작(adversarial manipulations) 하에서 불안정한 결정을 내립니다. 이러한 문제를 해결하기 위해, 우리는 분포적 차이(distributional discrepancies)를 더 명확하게 드러내는 정보가 풍부한 저확률 토큰(low-probability tokens)에 집중하는 다중 스케일 불확실성 추정기인 Uncertainty를 제안합니다. 국소적(Locally)으로는 저확률 토큰의 로그 확률(log-probabilities)을 평균화함으로써 상용구 지배 문제를 완화하며, 전역적(Globally)으로는 Rényi entropy를 통해 이 저확률 영역의 분포 형태를 포착함으로써 취약성을 줄입니다. 나아가 우리는 조건부 독립 샘플링(conditional independent sampling)을 통해 탐지기를 Uncertainty++로 확장하여 더욱 안정적인 불확실성 추정을 구현했습니다. 7개의 데이터셋과 16개의 LLM을 대상으로 한 실험을 통해 높은 효과성, 일반화 능력 및 강건성(robustness)을 입증했습니다. 우리의 코드는 https://github.com/guoyikai2000/Uncertainty-AIGT 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기