arXiv논문2026. 05. 25. 16:47

IP 보호를 위한 최소한의 의미 왜곡을 갖춘 강건한 LLM 워터마킹

요약

LLM의 지식 재산(IP) 보호를 위해 의미 왜곡을 최소화하면서도 강력한 탐지력을 갖춘 새로운 워터마킹 프레임워크 SAFESEAL을 제안합니다. SAFESEAL은 문맥 인식 동의어 교체와 키 조건부 대조 학습을 통해 모델의 유용성을 유지하며 높은 탐지율과 강건성을 달성했습니다.

핵심 포인트

SAFESEAL 프레임워크를 통한 LLM IP 보호 기술 제안
의미적 충실도와 사실적 일관성을 유지하는 토너먼트 샘플링 도입
키 조건부 대조 학습을 통한 제공자별 특화 탐지 가능
유용성, 탐지 가능성, 강건성 사이의 최적의 균형 달성
공개 워터마크 리더보드 및 대화형 데모 제공

독점적인 대규모 언어 모델 (LLMs)은 공격자가 입력-출력 쌍을 수집하여 대리 모델 (surrogate model)을 학습시킴으로써 LLM을 복제할 수 있어 지식 재산 (IP) 침해 위험에 직면해 있으며, 이는 재정적 손실을 초래합니다. 워터마크 (Watermarks)는 소유권을 확인하기 위한 유망한 방어 수단을 제공하지만, 기존 방식들은 종종 의미 왜곡 (semantic distortion), 사실적 불일치 (factual inconsistency), 그리고 적대적 공격 (adversarial attacks) 문제로 어려움을 겪습니다. 또한, 제공자별 탐지를 위한 키 조건부 (key-conditioned) 워터마크, 특히 교차 제공자 및 다중 사용자 시나리오에서의 활용은 여전히 미개척 분야로 남아 있습니다. 이러한 과제를 해결하기 위해, 우리는 모델 유용성 (utility)에 미치는 영향을 최소화하면서 강력한 탐지 가능성을 달성하여 탐지 가능성, 유용성, 그리고 강건성 (robustness) 사이의 균형을 효과적으로 맞추는 새로운 키 조건부 워터마킹 프레임워크인 SAFESEAL을 제안합니다. SAFESEAL은 키 조건부 토너먼트 샘플링 (Tournament sampling) 메커니즘을 통해 언어적 용어를 문맥 인식 동의어로 대체하면서도 고유 명사 (named entities)를 보존하여, 의미적 충실도 (semantic fidelity)와 사실적 일관성을 유지합니다. 탐지를 위해, 우리는 텍스트와 키를 공동으로 인코딩하여 제공자별로 특화되고 강건한 워터마크 검증을 가능하게 하는 키 조건부 대조 학습 탐지기 (key-conditioned contrastive detector)를 도입합니다. 우리는 유용성-탐지 가능성 트레이드오프 (utility-detectability trade-off)에 대한 이론적 경계 (theoretical bounds)를 도출하였으며, 경량 모델, 배치 처리 (batching), 병렬화 (parallelism)를 통해 지연 시간 (latency)을 크게 줄였습니다. 광범위한 실험을 통해 SAFESEAL이 유용성, 탐지 가능성 및 강건성 측면에서 베이스라인 모델들을 능가함을 보여주었으며, 0.983의 BERTScore, 0.963의 엔티티 유사도 (entity similarity), 98.2%의 탐지율을 달성하였고, 텍스트 품질 및 콘텐츠 보존 측면에서 가장 높은 인간 평가를 받았으며, 지연 시간은 가장 빠른 베이스라인과 유사한 수준을 기록했습니다. 투명성을 증진하고 커뮤니티 주도의 발전을 도모하기 위해, 우리는 최초의 공개 워터마크 리더보드와 대화형 데모를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

IP 보호를 위한 최소한의 의미 왜곡을 갖춘 강건한 LLM 워터마킹

요약

핵심 포인트

댓글