arXiv논문2026. 06. 30. 12:44

SrDetection: 코드 거대 언어 모델 (Code LLMs)의 데이터 누출 탐지를 위한 자기 참조 (Self-Referential)

요약

Code LLM의 벤치마크 성능이 인위적으로 부풀려지는 데이터 누출 문제를 해결하기 위한 새로운 프레임워크 SrDetection을 제안합니다. 모델의 로짓이나 출력에 접근하는 방식에 따라 그레이박스 및 블랙박스 설정 모두에서 작동하며, 의미론적 변형을 통해 누출을 효과적으로 탐지합니다.

핵심 포인트

데이터 누출 탐지를 위한 통합 자기 참조(Self-Referential) 프레임워크 제안
그레이박스 및 블랙박스 설정 모두 지원하여 범용성 확보
기존 방식 대비 F1 점수를 최대 21.52포인트 향상
임계값에 의존하지 않는 견고한 누출 탐지 성능 입증
15개 Code LLM 분석을 통해 새로운 누출 패턴 발견

코드 거대 언어 모델 (Code LLMs)을 평가하기 위해서는 데이터 누출 (data leakage)에 대한 신뢰할 수 있는 탐지가 필요합니다. 데이터 누출이란 사전 학습 (pre-training) 과정에서 벤치마크 데이터에 노출됨으로써 벤치마크 성능이 인위적으로 부풀려지는 현상을 의미합니다. 기존의 접근 방식들은 독점적인 학습 코퍼스 (training corpora)에 대한 접근을 가정하거나, 타임스탬프 필터링 (timestamp filtering)과 같은 취약한 휴리스틱 (heuristics)에 의존하거나, 수동으로 조정되어 일반화할 수 없는 임계값 (thresholds)을 가진 외부 참조 세트를 사용합니다. 이러한 한계를 해결하기 위해, 우리는 그레이박스 (gray-box, 모델 로짓 (logits)에 접근 가능) 및 블랙박스 (black-box, 모델 출력에 접근 가능) 설정 모두를 위한 통합된 자기 참조 (self-referential) 누출 탐지 프레임워크인 \textbf{SrDetection}을 소개합니다. SrDetection은 벤치마크 샘플의 의미론적으로 동일한 변형 (semantically equivalent variants)들을 생성하고, 원본과 변형본에 대한 모델의 동작을 대조함으로써 누출을 탐지하며, 원본이 모델에게 불균형적으로 더 쉬운 경우를 플래그 (flag)합니다. 우리는 더 나아가 통제된 누출 탐지 테스트베드 (testbed)를 설계하고 이 환경에서 SrDetection을 평가합니다. 다양한 모델과 학습 단계에 걸쳐, SrDetection은 강력한 베이스라인 (baselines) 대비 그레이박스 설정에서 평균 F1 점수를 21.52포인트, 블랙박스 설정에서 14.46포인트 향상시켜, 임계값에 의존하지 않는 견고한 누출 탐지 성능을 입증했습니다. 마지막으로, 4개의 대중적인 벤치마크에서 15개의 널리 사용되는 Code LLMs를 대상으로 진행한 그레이박스 연구를 통해, 기존의 중복 기반 분석 (overlap-based analyses)을 넘어서는 벤치마크 특이적 누출 패턴을 밝혀냈습니다\footnote{\footnotesize 소스 코드와 데이터는 https://github.com/SMinL/SrDetectionCode 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SrDetection: 코드 거대 언어 모델 (Code LLMs)의 데이터 누출 탐지를 위한 자기 참조 (Self-Referential)

요약

핵심 포인트

댓글