본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 27. 20:19

SSG: LLM 워터마킹을 위한 로그트 균형형 어휘 분할

요약

본 논문은 LLM이 생성한 콘텐츠의 저자성 추적을 위한 워터마킹 기술을 다루며, 특히 기존 방법(KGW)이 엔트로피가 낮은 환경에서 성능이 저하되는 문제를 해결하고자 합니다. 연구진은 '워터마킹 강도'라는 개념을 정의하고, 이를 높이기 위해 어휘 분할 알고리즘을 재설계한 SSG(Sort-then-Split by Groups) 방법을 제안합니다. 이 방법은 어휘를 두 개의 로그트 균형형 부분집합으로 나누어 각 토큰 예측의 워터마킹 강도 하한을 높임으로써, 코드 생성 및 수학적 추론과 같은 까다로운 환경에서도 워터마킹 탐지성을 향상시킵니다.

핵심 포인트

  • LLM 콘텐츠 저자성 추적을 위한 워터마킹 기술이 중요하게 부상하고 있다.
  • 기존의 무작위 어휘 분할 기반 방법(KGW)은 코드 생성 등 엔트로피가 낮은 환경에서 효과성이 떨어진다.
  • '워터마킹 강도'는 다음 토큰 예측 확률 분포와 관련된 특성으로, 워터마킹 효과성을 결정한다.
  • 제안된 SSG(Sort-then-Split by Groups) 방법은 어휘를 두 개의 로그트 균형형 부분집합으로 분할하여 워터마킹 강도의 하한을 높인다.
  • SSG는 코드 생성 및 수학적 추론 데이터셋에서 그 효과성이 입증되었다.

워터마킹은 대규모 언어 모델 (LLM) 이 생성한 콘텐츠의 저자성을 추적하기 위한 유망한 기술로 부상했습니다. 기존 접근법 중 KGW 스키ーム는 자연어 생성에서 그 다용도성, 효율성 및 효과성으로 인해 특히 매력적입니다. 그러나 KGW 의 효과성은 코드 생성이나 수학적 추론과 같은 엔트로피가 낮은 환경에서 현저히 저하됩니다. KGW 방법의 핵심 단계는 특정 선호도에 기반하여 토큰 선택을 조정할 수 있도록 하는 무작위 어휘 분할입니다. 우리의 연구에 따르면, 다음 토큰 확률 분포는 토큰 선택을 얼마나 수정하거나 심지어 수정할 수 있는지 결정하는 데 중요한 역할을 하며, 결과적으로 워터마킹의 효과성을 결정합니다. 우리는 각 토큰 예측의 확률 분포와 관련된 이 특성을 extit{워터마킹 강도 (watermark strength)}라고 부릅니다. 무작위 어휘 분할의 경우, 워터마킹 강도의 하한은 다음 토큰 확률 분포에 의해 결정됩니다. 그러나 우리는 어휘 분할 알고리즘을 재설계함으로써 이 하한을 잠재적으로 높일 수 있음을 발견했습니다. 본 논문에서는 어휘를 두 개의 로그트 균형형 (logit-balanced) 부분집합으로 분할하는 SSG( extbf{S}ort-then- extbf{S}plit by extbf{G}roups) 방법을 제안합니다. 이 설계는 각 토큰 예측의 워터마킹 강도 하한을 높여 워터마킹 탐지성을 향상시킵니다. 코드 생성과 수학적 추론 데이터셋에 대한 실험은 SSG 의 효과성을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0