arXiv논문2026. 06. 29. 11:30

재순위화(Rerank) 전의 재현(Recall): 대규모 코드-대-코드 검색(Code-to-Code Retrieval)을 위한 딥러닝 모델

요약

대규모 코드-대-코드 검색 엔진의 1단계 재현을 위한 딥러닝 모델의 성능과 확장성을 평가한 연구입니다. 테라바이트 규모의 데이터셋에서 기존 모델의 한계를 분석하고, LLM을 활용한 코드 정규화 및 쿼리 재작성 기법을 제안합니다.

핵심 포인트

대규모 소스 코드 컬렉션에서 딥러닝 모델의 정밀도 및 확장성 한계 규명
LLM 기반 코드 정규화 및 쿼리 재작성을 통한 정밀도 향상 기법 제시
코드 특화 LLM의 데이터셋별 견고성(robustness)에 대한 의문 제기
자원 제한 환경에서의 효율적인 코드 검색 시스템 구축 방안 제시

의미론적 코드 검색(Semantic code search)과 클론 탐지(clone detection)는 소프트웨어 개발, 유지보수 및 재사용에 있어 필수적입니다. 본 논문은 대규모 코드-대-코드(code-to-code) 검색 엔진의 1단계 재현(first-stage recall)을 위한 현대적 딥러닝 모델의 효과성, 효율성 및 확장성을 평가합니다. 여러 프로그래밍 언어와 데이터셋에 걸친 벤치마킹을 통해, 테라바이트(Terabyte) 규모의 소스 코드 컬렉션에서 이러한 모델들의 정밀도(precision)와 확장성(scalability)에 나타나는 결정적인 한계를 밝혀냅니다. 우리는 성능이 낮은 모델들의 정밀도를 크게 향상시키는 LLM 기반의 코드 정규화(code normalisation) 및 쿼리 재작성(query-rewriting) 기법을 제시합니다. 우리의 연구 결과는 자원이 제한된 환경에서의 배포 지속 가능성과, 현재의 코드 특화 LLM들이 다양한 데이터셋에 대해 갖는다고 가정된 견고성(robustness)에 의문을 제기합니다. 마지막으로 확장 가능하고 효율적인 코드 검색 시스템을 구축하기 위한 실행 가능한 통찰을 제시하며 결론을 맺습니다.

AI 자동 생성 콘텐츠

원문 바로가기

재순위화(Rerank) 전의 재현(Recall): 대규모 코드-대-코드 검색(Code-to-Code Retrieval)을 위한 딥러닝 모델

요약

핵심 포인트

댓글