arXiv논문2026. 05. 28. 13:31

LLM 생성 코드 스니펫을 위한 효율적이고 확장 가능한 출처 추적 (Efficient and Scalable Provenance

요약

LLM이 생성한 코드의 표절 및 라이선스 문제를 해결하기 위해, 벡터 검색과 핑거프린팅을 결합한 하이브리드 출처 추적 파이프라인인 HST를 제안합니다. HST는 대규모 코드 코퍼스에서도 로그 시간 복잡도를 유지하며 높은 정밀도로 코드의 출처를 식별합니다.

핵심 포인트

벡터 검색과 Winnowing 핑거프린팅을 결합한 HST 파이프라인 제안
3억 파라미터 규모의 코드 검색 최적화 인코더 SOURCETRACKER 도입
대규모 데이터셋에서도 로그 시간 복잡도로 확장성 확보
변형된 코드 스니펫에 대해서도 높은 검색 성능 입증

코드 완성 및 생성을 위한 대규모 언어 모델 (LLMs)이 소프트웨어 개발에서 점점 더 많이 사용되고 있지만, 이들은 저작자 표시 없이 훈련 예제를 그대로 재현할 수 있어 표절 및 라이선스 준수와 관련된 법적, 윤리적 문제를 야기할 수 있습니다. Winnowing과 같은 핑거프린팅 (fingerprinting) 기반의 전통적인 핑거프린트 방식 표절 탐지기는 여전히 매우 효과적이지만, 검사를 위해 코드 조각을 전체 훈련 세트와 비교해야 하며, 선형 시간 (linear-time) 검색 방식은 현대의 코드 LLM을 훈련하는 데 사용되는 수십억 규모의 코퍼스 (corpora)에 적용하기에는 비실용적입니다. 이러한 격차를 해소하기 위해, 우리는 코드 검색에 최적화된 3억 개의 파라미터를 가진 인코더인 SOURCETRACKER와 하이브리드 2단계 출처 추적 파이프라인인 HYBRIDSOURCETRACKER (HST)를 소개합니다. HST는 먼저 벡터 검색 (vector search)을 통해 소수의 후보 스니펫 세트를 좁힌 다음, 정확한 핑거프린트에 대한 Winnowing을 사용하여 해당 후보들의 순위를 재조정 (re-ranks)합니다. 우리는 실제 식별자 이름 변경 (identifier renaming)을 모방한 그대로의 스니펫과 변형된 스니펫을 포함하여 THESTACKV2 데이터셋의 1,000만 개 스니펫 서브셋에서 시스템을 훈련하고 평가했습니다. 변형된 쿼리를 사용한 10만 개 스니펫 규모의 인 비트로 (in vitro) 검색 공간에서, 우리의 하이브리드 접근 방식은 30개 토큰 조각에 대해 Winnowing과 대등한 평균 역순위 (mean reciprocal rank)를 달성했습니다. 또한, 60개 이상의 토큰 윈도우 (windows)부터는 로그 시간 (logarithmic-time) 쿼리 복잡도를 유지하면서도 일관되게 최대 5.4%까지 더 높은 성능을 보여주었습니다. LLM 기반 판정관 (judge)을 사용한 보완적 평가에서는, 정답 (ground truth)으로 라벨링되지 않은 검색된 스니펫 중 상당수가 특히 더 긴 컨텍스트 윈도우 (context windows)에서 예상되는 소스와 여전히 매우 유사하며, 따라서 최종 사용자에게 유용하다는 것을 발견했습니다. 종합적으로, 우리의 결과는 벡터 검색과 핑거프린팅을 통합함으로써 LLM이 생성한 코드에 대해 확장 가능하고 정밀도가 높은 출처 추적을 가능하게 함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 생성 코드 스니펫을 위한 효율적이고 확장 가능한 출처 추적 (Efficient and Scalable Provenance

요약

핵심 포인트

댓글