arXiv논문2026. 05. 05. 12:42

거인의 어깨 위에 서기: 다국어 코드 클론 감지를 위한 안정화된 지식 전달

요약

본 논문은 다국어 코드 클론 감지(X-CCD)의 어려움, 특히 LLM 사용 시 발생하는 비용 및 재현성 문제를 해결하기 위한 지식 전달 프레임워크를 제안합니다. 연구진은 DeepSeek-R1과 같은 강력한 모델의 추론 능력을 Phi3와 Qwen-Coder 같은 컴팩트 오픈소스 학생 모델로 전이하는 방법을 개발했습니다. 이 방법은 합성 훈련 데이터 구축, 응답 안정화 기법(강제 결론 프롬프트, 이진 분류 헤드 등) 도입을 통해 컴팩트 모델의 신뢰성과 예측 성능을 크게 향상시켰으며, 실제 다국어 코드 쌍에 대한 실험에서 그 유효성을 입증했습니다.

핵심 포인트

다국어 코드 클론 감지(X-CCD)는 언어 간 의미적 동등성으로 인해 매우 어려운 작업이다.
기존 LLM 기반 접근 방식은 비용, 재현성, 출력 형식의 불안정성 등의 문제점을 가진다.
연구진은 DeepSeek-R1과 같은 대형 모델의 추론 능력을 Phi3/Qwen-Coder와 같은 컴팩트 오픈소스 모델로 전달하는 지식 증류(Knowledge Distillation) 프레임워크를 제안했다.
응답 안정화 기법(예: 강제 결론 프롬프트, 이진 분류 헤드)을 도입하여 컴팩트 모델의 신뢰성을 높이고 추론 시간을 단축시켰다.
실험 결과, 지식 전달은 특히 분포 이동 상황에서 컴팩트 모델의 X-CCD 예측 성능을 일관되게 향상시킨다.

다국어 코드 클론 감지 (X-CCD) 는 다른 언어로 작성된 의미적으로 동등한 프로그램이 표면적 유사성이 거의 없기 때문에 도전적입니다. 대규모 언어 모델 (LLMs) 은 의미적 클론 감지에 대한 희망을 보여주고 있지만, 블랙박스 시스템으로 사용될 경우 비용, 재현 가능성, 프라이버시 및 신뢰할 수 없는 출력 형식에 대한 우려가 제기됩니다. 특히 컴팩트한 오픈소스 모델은 추론 지향 프롬프트를 따르고 이진 클론 레이블로 일관되게 매핑할 수 있는 출력을 생성하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 DeepSeek-R1 의 추론 능력을 X-CCD 를 위한 컴팩트 오픈소스 학생 모델로 전달하는 지식 전달 프레임워크를 제안합니다. Project CodeNet 에서 도출된 다국어 코드 쌍을 사용하여 추론 지향 합성 훈련 데이터를 구축하고 Phi3 와 Qwen-Coder 로 LoRA 어댑터로 미세 조정합니다. 우리는 또한 강제 결론 프롬프트, 이진 분류 헤드 및 대비적 분류 헤드를 포함한 응답 안정화 방법을 도입하고 예측 지표 및 응답률을 사용하여 모델 행동을 평가합니다. Python--Java, Rust--Java, Rust--Python, 그리고 Rust--Ruby 에 대한 실험은 지식 전달이 컴팩트 모델의 신뢰성을 일관되게 향상시키고, 특히 분포 이동 하에서는 예측 성능을 종종 향상시킨다는 것을 보여줍니다. 또한, 분류 헤드 변형은 생성 기반 추론에 비해 추론 시간을 크게 줄입니다. 전체적으로, 우리의 결과는 추론 지향 전달과 응답 안정화가 컴팩트 오픈소스 모델을 X-CCD 감지에 더 실용적이고 신뢰할 수 있게 만든다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

거인의 어깨 위에 서기: 다국어 코드 클론 감지를 위한 안정화된 지식 전달

요약

핵심 포인트

댓글