arXiv논문2026. 06. 23. 14:24

WaveDetect: 웨이브릿 변환(Wavelet Transform)을 통한 기계 생성 텍스트 탐지를 위한 강건한 프레임워크

요약

WaveDetect는 웨이브릿 변환(CWT)을 활용하여 LLM 생성 텍스트를 탐지하는 새로운 프레임워크입니다. 텍스트를 확률 신호로 모델링하여 시간-주파수 영역의 스펙트럼 지문을 분석함으로써, 기존 탐지기가 취약했던 적대적 공격과 도메인 변화에 대해 강력한 성능을 보여줍니다.

핵심 포인트

웨이브릿 변환을 통한 텍스트의 스펙트럼 지문 추출
적대적 섭동 및 도메인 변화에 대한 높은 강건성 확보
새로운 SOTA 성능 달성 및 진화하는 LLM에 대한 일반화 능력 입증
텍스트 탐지를 신호 처리 관점으로 재구성한 새로운 패러다임 제시

대규모 언어 모델(Large Language Models, LLM)이 자연어 생성에서 점진적으로 인간 수준의 유창함에 도달함에 따라, LLM이 생성한 텍스트를 탐지하기 위해 표면적인 의미론적 흔적(semantic artifacts)에만 의존하는 것은 점점 더 위험해지고 있습니다. 기존의 탐지기들은 적대적 섭동(adversarial perturbations), 도메인 간 변화(cross-domain shifts), 그리고 파운데이션 모델(foundation model)의 급격한 시간적 진화라는 세 가지 핵심 과제에 직면했을 때 종종 실패합니다. 이러한 문제를 해결하기 위해, 우리는 텍스트 탐지를 시간-주파수 영역(time-frequency domain) 내의 신호 처리 작업으로 재구성하는 새로운 프레임워크인
avedetect를 제안합니다. 정적인 토큰 확률 분포를 분석하는 이전 방법들과 달리,
avedetect는 생성된 출력을 확률 신호(probability signal)로 모델링하며, 여기에 미분 가능한 연속 웨이브릿 변환(Continuous Wavelet Transform, CWT)을 적용하여 이를 학습 가능한 스펙트럼 표현(spectral representations)으로 변환합니다. 이 과정은 시간 영역에서는 보이지 않는 기계 생성 텍스트의 고유한 "스펙트럼 지문(spectral fingerprints)", 즉 패턴을 드러냅니다. 잘 정제된 세 가지 데이터셋(RAID, EvoBench, Domain-Shift)에 대한 종합적인 평가 결과, 우리의 방법이 새로운 SOTA(state-of-the-art)를 달성함을 보여줍니다. 이 방법은 우수한 정확도를 달성할 뿐만 아니라, 정교한 공격에 대한 놀라운 강건성(robustness), 분포 외(out-of-distribution) 주제에 대한 일반화 능력, 그리고 보지 못한 진화하는 LLM에 대한 일반화 능력을 보여줍니다. 우리의 결과는 LLM 생성 텍스트 탐지를 위한 유망한 패러다임으로서 스펙트럼 분석(spectral analysis)의 효능을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

WaveDetect: 웨이브릿 변환(Wavelet Transform)을 통한 기계 생성 텍스트 탐지를 위한 강건한 프레임워크

요약

핵심 포인트

댓글