신뢰성 높은 다비트 텍스트 워터마킹을 위한 블록 단위 코드워드 임베딩 (BREW)
요약
본 논문은 기존 LLM 다비트 워터마킹 기법들이 낮은 신뢰성과 높은 위양성률(FPR)을 보이는 구조적 문제를 지적하며, 이를 해결하기 위해 BREW(Block-wise Reliable Embedding for Watermarking)라는 새로운 프레임워크를 제안합니다. BREW는 독립적인 블록 투표와 윈도우 시프트 검증이라는 두 단계 메커니즘을 사용하여 워터마킹의 신뢰성을 혁신적으로 높였습니다. 실험 결과, 이 방법은 동의어 치환 조건에서도 높은 진양성률(TPR)과 낮은 위양성률(FPR)을 동시에 달성하여, 기존 설계의 한계를 극복했음을 입증했습니다.
핵심 포인트
- 기존 LLM 다비트 워터마킹 기법들은 신뢰성보다 용량을 우선시하며 높은 FPR 문제를 겪는다.
- 제안된 BREW(Block-wise Reliable Embedding for Watermarking)는 두 단계 메커니즘을 통해 신뢰성을 향상시킨다.
- BREW의 핵심은 독립 블록 투표를 통한 맹문서 추정 및 로컬 편집 검증이다.
- 이 프레임워크는 모델에 구애받지 않으며(model-agnostic), 법의학적 배포에 적합한 확장 가능한 솔루션을 제공한다.
최근 대형 언어 모델 (LLM) 을 위한 다비트 워터마킹 방법은 용량을 신뢰성보다 우선시하며, 종종 복호 (decoding) 와 검출 (detection) 을 혼동합니다. 우리의 분석에 따르면 기존 ECC 기반 추출기는 치명적인 위양성율 (FPR: False Positive Rate) 을 겪으며, 거부 임계값을 적용하면 단지 검출 민감도 (TPR: True Positive Rate) 를 우연 추측 수준으로 떨어뜨립니다.
이 구조적 한계를 해결하기 위해 우리는 extbf{BREW} (Block-wise Reliable Embedding for Watermarking, 블록 단위 신뢰성 임베딩을 위한 워터마킹) 을 제안합니다. BREW 는 extbf{지정된 검증 (designated verification)} 패러다임을 전환합니다. BREW 는 두 단계 메커니즘을 사용합니다: (i) 독립적 블록 투표 (independent block voting) 를 통한 extbf{맹문서 추정 (blind message estimation)}, 그리고 (ii) 로컬 편집에 대한 페이로드를 엄격하게 검증하는 extbf{윈도우 시프트 검증 (window-shifting verification)}.
실험 결과, BREW 는 10% 동의어 치환 (synonym substitution) 조건에서 TPR 을 0.965 로, FPR 을 0.02 로 달성했습니다. 이는 다비트 워터마킹의 고 FPR 문제가 본질적인 트레이드오프가 아니라, 이전 복호 중심 설계의 해결 가능한 구조적 결함임을 입증합니다. 우리의 프레임워크는 모델 무관 (model-agnostic) 이며 이론적으로 근거를 바탕으로 하여, 신뢰성 있는 법의학적 배포 (forensic deployment) 를 위한 확장 가능한 솔루션을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기