arXiv논문2026. 06. 02. 10:14

언어학적 인지 기반의 비왜곡 LLM 워터마킹 (Linguistics-Aware Non-Distortionary LLM Watermarking)

요약

LUNA는 언어학적 인지 기반의 비왜곡 LLM 워터마킹 기술을 제안합니다. 형태론과 품사 문맥을 활용하여 모델의 출력 품질 저하를 최소화하면서도 다국어 환경에서 효과적인 워터마크 탐지가 가능함을 입증했습니다.

핵심 포인트

언어학적 적응형 워터마크 LUNA 제안
품사 문맥을 활용한 비왜곡 이진 토너먼트 샘플러 적용
다양한 언어 및 도메인에서 높은 AUROC 달성
Perplexity 및 엔트로피 변화를 최소화하여 품질 유지

워터마킹 (Watermarking)은 품질을 저하시키거나 검증을 모델 제공자로 제한하지 않으면서 언어 모델 (Language-model)의 출력을 식별할 수 있어야 합니다. 다국어 배포는 형태론 (Morphology), 분절 (Segmentation), 그리고 문자 (Script)에 따라 워터마크 증거가 자연스럽게 삽입될 수 있는 위치가 달라지기 때문에 이를 더욱 어렵게 만듭니다. 본 논문에서는 표준적인 무작위 키 모델 (Random-key model) 하에서 모델 프리 탐지 (Model-free detection)와 단일 토큰 비왜곡 (Single-token non-distortion)을 결합한 언어학적 적응형 워터마크인 LUNA를 소개합니다. LUNA는 외부 코퍼스 (Corpus)의 품사 (Part-of-speech) 문맥으로부터 정규화된 다음 태그 엔트로피 (Normalized next-tag entropy)를 추정하고, 이를 사용하여 비왜곡 이진 토너먼트 샘플러 (Non-distortionary binary tournament sampler)의 깊이를 설정합니다. 탐지기는 텍스트, 토크나이저 (Tokenizer), 태거 (Tagger), 그리고 비밀 키 (Secret key)를 통해 동일한 스케줄을 재구성합니다. 우리는 8개의 주요 베이스라인 (Baselines)을 대상으로 유형론적으로 다양한 6개의 언어와 2개의 도메인을 평가했습니다. LUNA는 12개의 설정 전반에 걸쳐 0.9959의 AUROC와 0.045라는 가장 낮은 평균 절대 중앙값 퍼플렉시티 변화 (Mean absolute median perplexity shift)를 달성했습니다. LUNA의 95% 부트스트랩 구간 (Bootstrap interval) [0.022, 0.073]은 모든 베이스라인의 구간보다 낮게 형성되었습니다. 또한 LUNA는 가장 낮은 평균 Self-BLEU, Distinct-1, 놀람도 (Surprisal), 그리고 엔트로피 (Entropy) 변화를 기록했습니다. LUNA는 대다수의 설정에서 AUROC > 0.99와 절대 중앙값 퍼플렉시티 변화 0.1 미만을 동시에 달성한 유일한 방법이며, 12개 설정 중 9개에서 이 영역에 도달한 반면, 어떤 베이스라인도 2개 이상의 설정에서 이 영역에 도달하지 못했습니다. 우리의 코드는 다음에서 확인할 수 있습니다: https://github.com/Shinwoo-Park/luna_watermark

AI 자동 생성 콘텐츠

원문 바로가기

언어학적 인지 기반의 비왜곡 LLM 워터마킹 (Linguistics-Aware Non-Distortionary LLM Watermarking)

요약

핵심 포인트

댓글