TextSeal: 출처 증명 및 지식 정제 보호를 위한 국소화된 LLM 워터마크

우리는 대규모 언어 모델(LLM)을 위한 최첨단 워터마크인 TextSeal을 소개합니다. Gumbel-max 샘플링에 기반하여, TextSeal은 출력 다양성을 복원하기 위해 이중 키 생성(dual-key generation), 엔트로피 가중치 점수화(entropy-weighted scoring), 그리고 향상된 탐지를 위한 다중 영역 국소화(multi-region localization)를 도입합니다. 이는 추측 디코딩(speculative decoding) 및 다중 토큰 예측과 같은 서비스 제공 최적화를 지원하며, 어떠한 추론 오버헤드도 추가하지 않습니다. TextSeal은 탐지 강도 면에서 SynthID-text와 같은 기존 방식들을 엄격하게 능가하며 희석에 강합니다.