arXiv논문2026. 05. 28. 13:31

노이즈가 있는 레이블 환경의 SZZ에서 결함 유발 커밋을 탐지하기 위한 Confident Learning 기반 네트워크

요약

데이터 노이즈와 의미론적 연결 부족 문제를 해결하기 위해 BIC-Hunter 모델을 제안합니다. Confident Learning 기반의 노이즈 제거와 GCN을 활용한 의미론적 관계 포착을 통해 결함 유발 커밋 탐지 성능을 혁신적으로 개선했습니다.

핵심 포인트

데이터 노이즈 완화를 위한 Confident Learning 기반 노이즈 제거 구성 요소 도입
GCN과 동질 그래프를 활용하여 코드 문맥의 의미론적 관계 포착
기존 SOTA 모델 대비 Recall@1 기준 6.16% 성능 향상 입증
MFR 지수를 8.43% 증가시켜 결함 식별 신뢰도 확보

Just-In-Time (JIT) 결함 예측 모델은 소프트웨어 개발의 품질을 보장하고 소프트웨어 성능을 향상시키는 데 중요한 도구 역할을 합니다. 이 모델은 코드 제출이 결함을 유발할 수 있는지 예측함으로써 개발 팀이 잠재적인 문제를 신속하게 식별하고 해결할 수 있도록 지원합니다. 그러나 실제 시나리오에서는 데이터 노이즈 (data noise)의 존재와 불충분한 의미론적 연결 (semantic connections)로 인해, 기존 방식들은 결함을 유발하는 코드 커밋 (code commits)을 정확하게 식별하고 잠재적인 의미론적 관계를 포착하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 데이터 노이즈를 완화하고 의미론적 이해를 개선하여 결함 유발 커밋 식별의 정확도를 높이는 BIC-Hunter (Bug-Inducing Commits Hunter) 모델을 제안합니다. BIC-Hunter 모델은 데이터 노이즈 제거 (data denoising) 구성 요소와 의미론적 관계 포착 (semantic relationship capturing) 구성 요소의 두 가지 요소로 구성됩니다. 구체적으로, 데이터 노이즈 제거 구성 요소는 실제 데이터의 부정확한 주석 (annotations) 및 불일치로 인해 발생하는 문제를 해결하여, 학습 데이터의 신뢰성을 높이고 전반적인 모델의 강건성 (robustness)을 향상시킵니다. 의미론적 관계 포착 구성 요소는 동질 그래프 (homogeneous graphs)를 구축하고 그래프 합성곱 네트워크 (Graph Convolutional Networks, GCN)를 적용하여 코드 문맥 (code context)에 대한 보다 포괄적인 분석을 용이하게 하며, 이를 통해 코드 커밋으로 인한 결함을 식별하고 그 근본 원인을 정확히 짚어내는 신뢰도를 높입니다. 세 개의 오픈 소스 데이터셋을 통합한 대규모 데이터셋에 대한 실험 연구 결과, BIC-Hunter는 뛰어난 성능을 보여주었습니다. BIC-Hunter는 Recall@1, Recall@2, Recall@3에서 각각 6.16%, 7.13%, 5.53%만큼 최신 기술 (state-of-the-art)보다 성능이 우수하며, MFR 지수는 8.43% 증가하여 32.82%를 기록했습니다. 이러한 결과는 결함 유발 커밋을 식별하는 데 있어 우리 방법론의 우수한 능력을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

노이즈가 있는 레이블 환경의 SZZ에서 결함 유발 커밋을 탐지하기 위한 Confident Learning 기반 네트워크

요약

핵심 포인트

댓글