PromptMark: 소스 코드 워터마킹을 위한 프롬프트 유도형 반복 피드백 프레임워크
요약
PromptMark는 블랙박스 LLM 환경에서 소스 코드의 출처를 증명하기 위한 프롬프트 유도형 워터마킹 프레임워크입니다. 반복적인 피드백 루프를 통해 코드의 기능적 정확성을 유지하면서도 통계적으로 탐지 가능한 식별자 및 주석 패턴을 삽입합니다.
핵심 포인트
- 블랙박스 API 환경에서도 적용 가능한 프롬프트 기반 워터마킹 기술 제안
- 코드의 기능적 정확성과 구조적 무결성을 유지하며 워터마크 삽입
- 반복 피드백 루프를 통해 워터마크 탐지 성능을 정교하게 최적화
- MBPP 및 HumanEval 벤치마크에서 기존 방식 대비 우수한 성능 입증
워터마킹 (Watermarking)은 AI가 생성한 소스 코드의 출처와 책임성을 보장하기 위한 중요한 기술이 되었습니다. 대규모 언어 모델 (LLMs)이 개발 워크플로에 점점 더 통합됨에 따라, 신뢰할 수 있는 귀속 (attribution)은 여전히 어려운 과제로 남아 있습니다. 실제로 대부분의 개발자는 블랙박스 (black-box) 제약 하에 작동하는 상용 LLM API에 의존하며, 이로 인해 디코딩 (decoding) 과정에 대한 접근 권한을 요구하는 기존 방식들은 실제 통합에 적용하기가 어렵습니다. 이러한 한계를 해결하기 위해, 우리는 구조화된 입력 지침을 통해 생성된 코드에 보이지 않으면서도 통계적으로 탐지 가능한 신호를 삽입하는 블랙박스 방식의 프롬프트 유도형 워터마킹 프레임워크인 PromptMark를 제안합니다. 이 방법은 생성된 코드의 기능적 정확성 (functional correctness)과 구조적 무결성 (structural integrity)을 유지하면서, 모델이 미묘한 식별자 (identifier) 및 주석 (comment) 명명 패턴을 따르도록 유도합니다. 탐지는 다양한 코드 길이와 모델 출력에 걸쳐 신뢰성을 유지하도록 설계된 통계적 검정 (statistical tests)을 사용하여 수행됩니다. 삽입 과정은 워터마크 탐지 점수에 따라 프롬프트가 업데이트되는 반복 피드백 루프 (iterative feedback loop)를 통해 더욱 정교해집니다. MBPP 및 HumanEval 벤치마크에서의 실험 결과, PromptMark는 높은 코드 정확도를 유지하면서도 일관되게 강력한 워터마크 탐지 가능성을 달성하며, 베이스라인 (baseline) 방식들을 능가하는 성능을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기