HybridCodeAuthorship: 라인 단위 코드 저자 식별을 위한 벤치마크 데이터셋
요약
AI와 사람이 혼합된 코드베이스에서 라인 단위로 저자를 식별하기 위한 새로운 벤치마크 데이터셋인 HybridCodeAuthorship를 소개합니다. 기존 벤치마크의 한계를 극복하기 위해 실제 산업계의 활용 사례를 시뮬레이션하며, 최신 탐지 알고리즘의 성능을 검증했습니다.
핵심 포인트
- AI와 사람이 작성한 코드가 섞인 하이브리드 코드 환경을 반영한 벤치마크 제안
- CodeSearchNet을 활용한 대규모 Python 코드 데이터셋 구축 파이프라인 제시
- 라인 단위 및 청크 단위의 코드 저자 식별 성능 평가 수행
- AIGCode Detector가 해당 벤치마크에서 최고 F1 점수를 기록함
대규모 언어 모델 (LLMs) 기반의 AI 코드 어시스턴트 (AI code assistants) 도입이 급격히 확산됨에 따라, 산업계의 코드베이스 (codebases)는 점점 더 AI가 작성한 코드와 사람이 작성한 코드가 혼합된 하이브리드 형태를 띠고 있습니다. 리스크 관리 및 생산성 분석을 목적으로, AI가 생성한 코드를 세밀한 위치 단위로 탐지하는 것이 매우 중요해졌습니다. 이 작업을 위한 알고리즘을 개발하기 위해서는 성능을 평가할 수 있는 양질의 벤치마크 (benchmarks)가 필요합니다. 그러나 기존의 벤치마크들은 학술적이고 LeetCode 스타일의 문제들로 구성되는 경향이 있으며, 코드 스니펫 (code snippet)이 완전히 사람이 작성했거나 혹은 완전히 AI가 작성했다고 가정합니다. 이는 AI 코드 어시스턴트를 활용하는 산업계 코드베이스의 다양한 의도와 스타일를 반영하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 AI 코드 어시스턴트의 실제 활용 사례를 시뮬레이션하기 위해 사람과 AI가 작성한 코드 라인이 서로 섞여 있는 Python 코드 파일로 구성된 새로운 벤치마크인 HybridCodeAuthorship를 소개합니다. 본 논문에서는 먼저 GitHub의 오픈 소스 리포지토리 (repositories) 링크를 대규모로 수집한 CodeSearchNet을 활용한 데이터셋 구축 파이프라인을 제시합니다. 그다음, 라인 단위 (line-level) 및 청크 단위 (chunk-level) 모두에서 두 가지 최첨단 AI 생성 코드 탐지 알고리즘의 성능을 벤치마킹합니다. 실험 결과, HybridCodeAuthorship는 도전적인 벤치마크임을 입증하였으며, 최고 점수를 기록한 알고리즘인 AIGCode Detector는 청크 단위 및 라인 단위 코드 탐지 작업에서 각각 0.48과 0.56의 최고 F1 점수를 기록했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기