SAMark: 문단 수준의 패러프레이징 강건성을 갖춘 자기 앵커링 텍스트 워터마킹
요약
SAMark는 문장 순서 변경과 같은 문단 수준의 패러프레이징 공격에 강한 자기 앵커링 텍스트 워터마킹 프레임워크를 제안합니다. 의미 공간 내 그린 영역 구축과 다채널 쌍곡선 스코어링을 통해 탐지 성능을 높이고 생성 품질을 유지합니다.
핵심 포인트
- 문단 수준 패러프레이징에 대한 높은 강건성 확보
- 자기 앵커링 메커니즘으로 문장 순서 의존성 제거
- 다채널 쌍곡선 스코어링을 통한 워터마크 신호 증폭
- 강건성과 생성 품질 간의 트레이드오프 극복
의미 수준 워터마킹 (Semantic-level watermarking, SWM)은 문장을 기본 단위로 취급함으로써 텍스트 수정에 대한 강건성 (robustness)을 향상시킵니다. 그러나 문단 수준의 패러프레이징 (paragraph-level paraphrasing)에 대한 강건성은 여전히 어려운 과제로 남아 있는데, 이러한 공격은 문장 순서를 변경함으로써 워터마크 신호를 전역적으로 교란하기 때문입니다. 본 연구에서는 의미 공간 (semantic space) 내에서 단계에 독립적인 그린 영역 (green region)을 구축함으로써 문장 순서에 대한 의존성을 제거하는 자기 앵커링 (self-anchored) 워터마킹 프레임워크인 SAMark를 제안합니다. 탐지 가능성 (detectability)을 높이기 위해, 우리는 약하게 정렬된 후보군으로부터 발생하는 노이즈를 억제하면서 워터마크 신호를 증폭하는 다채널 쌍곡선 스코어링 (multi-channel hyperbolic scoring) 메커니즘을 도입합니다. 나아가, 단순한 n-gram 반복 필터를 넘어 의미적 중복성을 해결하기 위해 하드 필터링 (hard filtering)과 소프트 정규화 (soft regularization)를 결합한 다양성 인식 필터링 (diversity-aware filtering) 전략을 제안합니다. 실험 결과에 따르면, SAMark는 전형적인 문단 수준 패러프레이징 공격 하에서 최대 90.2%의 TP@FP1%를 달성하였으며, 이는 기존의 가장 강력한 베이스라인보다 평균 30% 이상 뛰어난 성능입니다. 동시에 워터마크가 없는 텍스트와 경쟁할 만한 생성 품질을 유지하며, 기존 방법론들을 제한하던 강건성-품질 트레이드오프 (robustness-quality trade-off)를 극복하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기