Blind PRNG Hijacking: LLM 워터마킹에 대한 탐지 불가능한 무결성 유지 공격
요약
LLM 워터마킹의 보안 취약점을 다루는 SeedHijack 공격을 소개합니다. 이 공격은 PRNG를 교체하여 워터마크 신호를 증폭하면서도 탐지를 회피하며, 텍스트 품질을 유지하는 특징이 있습니다.
핵심 포인트
- SeedHijack은 워터마크 키나 모델 정보 없이 수행 가능한 Blind 공격임
- 워터마크 신호를 지우지 않고 오히려 증폭하여 무결성을 유지함
- 기존의 최신 통계적 탐지기 6종을 모두 회피하는 데 성공함
- PRNG 무결성이 콘텐츠 출처 증명 시스템의 핵심 보안 요구사항임을 입증함
- 양자 난수 생성기(QRNG)가 효과적인 방어책이 될 수 있음을 제시함
암호학적 워터마킹 (Cryptographic watermarking)은 거대 언어 모델 (LLMs)이 생성한 텍스트의 출처를 밝히기 위한 주요 방어 수단입니다. KGW, Unigram, DipMark를 포함한 기존 방식들은 기반이 되는 의사 난수 생성기 (PRNG)가 신뢰할 수 있다는 가정으로부터 보안 보장을 도출합니다. 본 연구는 LLM 워터마킹에 대한 최초의 공급망 공격인 SeedHijack을 소개합니다. 이 공격은 동시에 (i) blind (워터마크 키, 탐지기 또는 모델 로짓 (logits)에 대한 지식이 필요 없음), (ii) integrity-preserving (워터마크 신호를 지우는 대신 증폭함), (iii) detection에 orthogonal (공격으로 유도된 편향이 모든 콘텐츠 측 탐지 통계와 통계적으로 독립적이어서, 증폭과 회피가 트레이드오프 없이 공존함)한 특성을 가집니다. SeedHijack은 생성된 텍스트를 교란하는 대신, 공급망 계층에서 PRNG를 교체하여 출력 토큰을 변경하거나 텍스트 품질을 저하시키지 않으면서 그린리스트 (green-list) 선택에 편향을 줍니다. 세 가지 워터마킹 방식과 세 가지 오픈 소스 LLM을 대상으로 실험한 결과, 이 공격은 최신 콘텐츠 측 통계적 탐지기 6개 중 0개를 트리거(탐지)하는 동시에 워터마크 z-score를 최대 2.42배까지 부풀렸습니다 (엔트로피 소스 인증 (entropy-source attestation)과 같은 시스템 수준의 방어책은 여전히 직교하며 상호 보완적입니다). 양자 난수 생성기 (QRNG) 대응책은 무해한 워터마킹 유용성을 유지하면서 공격을 완전히 무력화하는 것으로 나타났습니다. 이러한 발견은 PRNG 무결성이 암호학적 콘텐츠 출처 증명 (content-provenance) 시스템을 위한 일급 보안 요구 사항임을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기