arXiv논문2026. 05. 26. 12:50

SAMark: 문단 수준의 패러프레이징 강건성을 갖춘 자기 앵커링 텍스트 워터마킹

요약

SAMark는 문장 순서 변경과 같은 문단 수준의 패러프레이징 공격에 강한 자기 앵커링 텍스트 워터마킹 프레임워크를 제안합니다. 의미 공간 내 그린 영역 구축과 다채널 쌍곡선 스코어링을 통해 탐지 성능을 높이고 생성 품질을 유지합니다.

핵심 포인트

문단 수준 패러프레이징에 대한 높은 강건성 확보
자기 앵커링 메커니즘으로 문장 순서 의존성 제거
다채널 쌍곡선 스코어링을 통한 워터마크 신호 증폭
강건성과 생성 품질 간의 트레이드오프 극복

의미 수준 워터마킹 (Semantic-level watermarking, SWM)은 문장을 기본 단위로 취급함으로써 텍스트 수정에 대한 강건성 (robustness)을 향상시킵니다. 그러나 문단 수준의 패러프레이징 (paragraph-level paraphrasing)에 대한 강건성은 여전히 어려운 과제로 남아 있는데, 이러한 공격은 문장 순서를 변경함으로써 워터마크 신호를 전역적으로 교란하기 때문입니다. 본 연구에서는 의미 공간 (semantic space) 내에서 단계에 독립적인 그린 영역 (green region)을 구축함으로써 문장 순서에 대한 의존성을 제거하는 자기 앵커링 (self-anchored) 워터마킹 프레임워크인 SAMark를 제안합니다. 탐지 가능성 (detectability)을 높이기 위해, 우리는 약하게 정렬된 후보군으로부터 발생하는 노이즈를 억제하면서 워터마크 신호를 증폭하는 다채널 쌍곡선 스코어링 (multi-channel hyperbolic scoring) 메커니즘을 도입합니다. 나아가, 단순한 n-gram 반복 필터를 넘어 의미적 중복성을 해결하기 위해 하드 필터링 (hard filtering)과 소프트 정규화 (soft regularization)를 결합한 다양성 인식 필터링 (diversity-aware filtering) 전략을 제안합니다. 실험 결과에 따르면, SAMark는 전형적인 문단 수준 패러프레이징 공격 하에서 최대 90.2%의 TP@FP1%를 달성하였으며, 이는 기존의 가장 강력한 베이스라인보다 평균 30% 이상 뛰어난 성능입니다. 동시에 워터마크가 없는 텍스트와 경쟁할 만한 생성 품질을 유지하며, 기존 방법론들을 제한하던 강건성-품질 트레이드오프 (robustness-quality trade-off)를 극복하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SAMark: 문단 수준의 패러프레이징 강건성을 갖춘 자기 앵커링 텍스트 워터마킹

요약

핵심 포인트

댓글