SSG: LLM 워터마킹을 위한 로그트 균형형 어휘 분할

워터마킹은 대규모 언어 모델 (LLM) 이 생성한 콘텐츠의 저자성을 추적하기 위한 유망한 기술로 부상했습니다. 기존 접근법 중 KGW 스키ーム는 자연어 생성에서 그 다용도성, 효율성 및 효과성으로 인해 특히 매력적입니다. 그러나 KGW 의 효과성은 코드 생성이나 수학적 추론과 같은 엔트로피가 낮은 환경에서 현저히 저하됩니다. KGW 방법의 핵심 단계는 특정 선호도에 기반하여 토큰 선택을 조정할 수 있도록 하는 무작위 어휘 분할입니다. 우리의 연구에 따르면, 다음 토큰 확률 분포는 토큰 선택을 얼마나 수정하거나 심지어 수정할 수 있는지 결정하는 데 중요한 역할을 하며, 결과적으로 워터마킹의 효과성을 결정합니다. 우리는 각 토큰 예측의 확률 분포와 관련된 이 특성을 extit{워터마킹 강도 (watermark strength)}라고 부릅니다. 무작위 어휘 분할의 경우, 워터마킹 강도의 하한은 다음 토큰 확률 분포에 의해 결정됩니다. 그러나 우리는 어휘 분할 알고리즘을 재설계함으로써 이 하한을 잠재적으로 높일 수 있음을 발견했습니다. 본 논문에서는 어휘를 두 개의 로그트 균형형 (logit-balanced) 부분집합으로 분할하는 SSG( extbf{S}ort-then- extbf{S}plit by extbf{G}roups) 방법을 제안합니다. 이 설계는 각 토큰 예측의 워터마킹 강도 하한을 높여 워터마킹 탐지성을 향상시킵니다. 코드 생성과 수학적 추론 데이터셋에 대한 실험은 SSG 의 효과성을 입증합니다.

Insights

SSG: LLM 워터마킹을 위한 로그트 균형형 어휘 분할

요약

핵심 포인트

댓글

지금 바로 AI 트레이딩 시스템으로 전환해야 하는 이유 — 비트코인 및 암호화폐 (BTC, ETH, Perps)

지금 당장 AI 트레이딩 시스템으로 전환해야 하는 이유 — 옵션 (SPX, DAX, Nikkei, KOSPI 등)

지금 바로 AI 트레이딩 시스템으로 전환해야 하는 이유 — 선물 (CME, Eurex, SGX, ASX 등)

AI 코딩 에이전트에게 모호한 버그 수정을 요청하는 것을 멈추세요

지금 바로 AI 트레이딩 시스템으로 전환해야 하는 이유 — 비트코인 및 암호화폐 (BTC, ETH, Perps)

지금 당장 AI 트레이딩 시스템으로 전환해야 하는 이유 — 옵션 (SPX, DAX, Nikkei, KOSPI 등)

지금 바로 AI 트레이딩 시스템으로 전환해야 하는 이유 — 선물 (CME, Eurex, SGX, ASX 등)

AI 코딩 에이전트에게 모호한 버그 수정을 요청하는 것을 멈추세요