본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 01:22

소프트웨어 결함 예측을 위한 특징 기반 프레임워크

요약

본 연구는 소프트웨어 결함 예측(SFP)의 성능을 높이기 위해 특징 선택(Feature selection)과 하이퍼파라미터 튜닝을 결합한 프레임워크를 제안합니다. 다양한 머신러닝 알고리즘과 최적화 기법을 비교 분석한 결과, CFS와 유전 알고리즘(GA)을 결합하여 Random Forest 모델을 적용했을 때 가장 높은 정확도인 88.40%를 달성했습니다. 이를 통해 베이스라인 대비 18%의 성능 향상과 모델의 견고성을 입증하였습니다.

핵심 포인트

  • 특징 선택(CFS, RFE, MI, L1 규제)과 하이퍼파라미터 튜닝(Grid search, Randomized search, GA)의 결합이 예측 성능을 극대화함
  • CFS와 유전 알고리즘(GA)을 결합한 Random Forest 모델이 88.40%의 최고 정확도를 기록함
  • 특징 선택을 통해 WMC, CBO와 같은 핵심 소프트웨어 속성을 식별하고 차원을 축소함
  • 제안된 프레임워크는 낮은 교차 검증 변동성을 보이며 모델의 견고성과 효율성을 입증함

소프트웨어 결함 예측 (Software fault prediction, SFP)은 소프트웨어 공학에서 매우 중요한 작업으로, 모듈 내 결함을 조기에 식별하여 소프트웨어 품질을 향상시키고 유지보수 비용을 절감할 수 있게 합니다. 본 연구는 SFP를 위한 머신러닝 (Machine Learning, ML) 모델의 성능에 있어 특징 선택 (Feature selection)과 파라미터 튜닝 (Parameter tuning)의 결합된 효과를 조사합니다. 본 연구는 상관관계 기반 특징 선택 (Correlation-based feature selection, CFS), 재귀적 특징 제거 (Recursive feature elimination, RFE), 상호 정보량 (Mutual information, MI), 그리고 L1 규제 (L1 regularization)를 포함한 특징 선택 방법들 간의 상호작용을 평가합니다. 여기서 최적화된 결함 예측 성능을 위해 랜덤 포레스트 (Random forest, RF), 로지스틱 회귀 (Logistic regression, LR), 서포트 벡터 머신 (Support vector machines, SVM)과 같은 ML 알고리즘의 최적화를 위해 그리드 탐색 (Grid search), 무작위 탐색 (Randomized search), 유전 알고리즘 (Genetic algorithm, GA)과 같은 하이퍼파라미터 튜닝 (Hyperparameter tuning) 기술이 사용됩니다. CFS와 GA를 결합하여 적용했을 때 가장 높은 정확도를 기록하였으며, RF를 통해 88.40%를 달성하여 특징 선택이나 튜닝이 없는 베이스라인 모델 대비 18%의 향상을 나타냈습니다. 특징 선택은 차원을 축소하고 클래스당 가중 메서드 수 (Weighted methods per Class, WMC) 및 객체 간 결합도 (Coupling between objects, CBO)와 같은 핵심 속성을 식별하였으며, 반복적인 파라미터 튜닝은 이러한 특징 세트에 대한 모델 정렬을 최적화했습니다. 특히, 제안된 방법들은 최소한의 교차 검증 변동성 (+-1.0%)을 보이며 견고성 (Robustness)을 입증하였고, L1 규제와 같은 단변량 방법 (Univariate methods)에서 훈련 시간을 단축함으로써 효율성을 보여주었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0