코드 저장소 내 LLM 생성 코드 및 주석에 관한 탐색적 연구
요약
LLM이 생성한 코드와 주석의 특성을 기업 및 커뮤니티 유지 저장소를 대상으로 탐색적으로 연구한 논문입니다. LLM 생성 코드의 감소 추세, 코드 클론 현상, 그리고 기업 저장소에서의 높은 생성 비율 등을 분석했습니다.
핵심 포인트
- LLM 생성 코드는 시간이 지남에 따라 감소하는 경향을 보임
- LLM 생성 코드는 저장소 내에서 높은 코드 클론 비율을 나타냄
- 기업 유지 저장소가 커뮤니티 유지 저장소보다 LLM 생성 비중이 높음
- LLM 생성 코드와 사람이 라벨링한 버그 간의 직접적 연관성은 낮음
소프트웨어 개발에서 코드 생성(Code Generation) 및 요약(Summarization)과 같은 작업에 LLM(Large Language Models)을 사용하는 것이 점점 더 널리 퍼지고 있습니다. 대형 기술 기업들의 보고에 따르면, 그들 코드의 약 20%에서 30%가 LLM에 의해 생성되었습니다. 그러나 생성된 코드를 디버깅(Debugging)하는 데 더 많은 시간이 소요될 수 있다는 우려나 생성된 주석(Comments)의 부자연스러움과 같은 LLM 생성 코드 및 주석의 실제 사용에 대한 회의론은 여전히 남아 있습니다. 본 논문에서는 LLM에 의해 생성되었을 가능성이 높은 것으로 탐지된 코드와 주석, 그리고 그 특성, 기업 유지(Company-maintained) 저장소와 커뮤니티 유지(Community-maintained) 저장소 간의 차이점, 그리고 버그(Bugs)가 LLM 생성 코드와 연관될 가능성을 연구합니다. 우리는 LLM에 의해 생성된 코드와 주석을 탐지하는 다양한 도구와 기술을 사용하여 2021년부터 2025년까지 활발하게 운영되는 기업 및 커뮤니티 유지 저장소를 대상으로 광범위한 실험을 수행합니다. 탐지기 기반의 프록시 분석(Proxy analysis) 결과에 따르면, LLM에 의해 생성되었을 가능성이 높은 것으로 탐지된 코드는 시간이 지남에 따라 감소하고 테스트 케이스(Test cases)에서 빈번하게 나타나는 반면, 주석의 경우 상대적으로 안정적인 상태를 유지함을 시사합니다. 프록시 결과는 더 나아가 LLM에 의해 생성되었을 가능성이 높은 것으로 탐지된 코드가 저장소 내에서 상당한 코드 클론(Code clones)을 보여주는 반면, 주석은 문법적으로 정확한 문장의 비율이 상대적으로 낮다는 것을 시사합니다. 또한, 기업 유지 저장소는 LLM에 의해 생성되었을 가능성이 높은 것으로 탐지된 코드와 주석의 비율이 더 높게 나타났으며, 사람이 라벨링한 버그 중 LLM 생성 코드와 연관될 가능성이 있는 것으로 탐지된 비율은 소수에 불과했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기