arXiv논문2026. 04. 29. 13:01

코드 평가 지표를 통해 코드 도용을 감지할 수 있는가?

요약

본 논문은 코드 평가 지표(CEMs)가 다양한 수정 수준의 소스 코드 도용을 신뢰성 있게 감지할 수 있는지 실증적으로 연구했습니다. ConPlag 및 IRPlag 데이터셋을 사용하여 CodeBLEU, CrystalBLEU 등 5가지 CEM과 JPlag, Dolos 같은 최신 전문 도구를 비교 평가했습니다. 그 결과, 전처리 없이 Dolos가 전체 순위에서 가장 우수했으나, 개별 지표 중에서는 CrystalBLEU, CodeBLEU, RUBY 등이 JPlag을 능가하는 성능을 보였습니다. 특히 CrystalBLEU는 높은 수정 수준(L6)에서도 경쟁력을 유지하며, CEM들이 전문 도구와 비교 가능한 수준의 순위 기반 성능을 제공함을 입증했습니다.

핵심 포인트

Code Evaluation Metrics (CEMs)를 사용하여 소스 코드 도용 탐지(SCPD) 가능성을 실증적으로 검토함.
전문 도구인 Dolos는 전처리 없이 전체적인 높은 순위를 보였으나, 개별 지표 중 CrystalBLEU가 JPlag을 능가하는 성능을 입증함.
성능은 수정 수준 L1에서 가장 강력하며, 어려운 수준(L4 이후)으로 갈수록 감소하는 경향을 보임.
CrystalBLEU는 높은 난이도의 도용 수준(L6)에서도 경쟁력을 유지하며, 전처리 적용 시 Dolos를 능가할 수 있음.
CEM들이 순위 기반 측정치 측면에서 전문적인 SCPDTs와 비교 가능한 성능을 제공함을 시사함.

소스 코드 도용 탐지 (Source Code Plagiarism Detection, SCPD) 는 소프트웨어 공학 교육에서 공정성과 학문적 건전성을 유지하는 데 중요한 역할을 합니다. 코드 평가 지표 (Code Evaluation Metrics, CEMs) 는 코드 생성 작업을 평가하기 위해 개발되었습니다. 그러나 이러한 지표가 복잡도가 증가하는 다양한 수준의 수정 (L1-L6) 을 통해 도용을 신뢰할 수 있게 감지할 수 있는지는 여전히 명확하지 않습니다. 본 논문에서는 ConPlag(원본 및 템플릿 없는 버전) 과 IRPlag 라는 두 개의 오픈소스 레이블링된 데이터셋을 사용하여 비교 실증 연구를 수행합니다. 우리는 CodeBLEU, CrystalBLEU, RUBY, Tree Structured Edit Distance (TSED), 그리고 CodeBERTScore 라는 다섯 가지 CEM 을 평가합니다. 성능은 전체, 각 데이터셋별, 및 각 수준별 도용 성능을 평가하기 위해 임계값 없는 순위 기반 측정치를 사용하여 평가됩니다. 결과는 최신(Source Code Plagiarism Detection Tools, SCPDTs) 도구인 JPlag 과 Dolos 와 비교됩니다. 우리의 연구 결과는 전처리 없이 Dolos 가 가장 높은 전체 순위 성능을 달성한 반면, 개별 지표 중에서는 CrystalBLEU, CodeBLEU, 그리고 RUBY 가 JPlag 을 능가함을 보여줍니다. 성능은 L1 에서 가장 강력하며 L4 로부터 감소하지만, CrystalBLEU 는 L6 에서도 경쟁력을 유지합니다. 전처리를 적용할 경우, CrystalBLEU 는 Dolos 를 전체적으로 능가합니다. 데이터셋별로 볼 때, Dolos 는 ConPlag raw 데이터셋에서 가장 높은 순위를 달성한 반면, CrystalBLEU 는 나머지 데이터셋에서 가장 잘 수행된 지표였습니다. 도용 수준별로 살펴보면, Dolos 는 L4 에서 여전히 가장 강력하며, Crystal-BLEU 는 나머지 어려운 수준들 대부분을 주도합니다. 이러한 결과는 CEM 들이 순위 지표 측면에서 전용 도구와 비교 가능함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

코드 평가 지표를 통해 코드 도용을 감지할 수 있는가?

요약

핵심 포인트

댓글