본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 11:13

BioDefect: 생물정보학 소프트웨어 결함 탐지를 위한 최초의 데이터셋

요약

생물정보학 소프트웨어의 결함 탐지를 위해 설계된 최초의 데이터셋인 BioDefect을 소개합니다. BioDefect은 실제 소스 코드 저장소의 문맥 정보를 보존하고 데이터 누수 및 레이블 불일치 문제를 해결하여 높은 신뢰성을 제공합니다. DeepSeek-R1을 포함한 9개 언어 모델 평가 결과, 기존 데이터셋 대비 F1-score가 평균 29.61%~38.04% 향상되는 성과를 보였습니다.

핵심 포인트

  • 생물정보학 소프트웨어 결함 탐지 전용 최초의 데이터셋 BioDefect 공개
  • 완전한 소스 코드 저장소를 포함하여 실제 결함 시나리오의 문맥 정보 보존
  • 레이블 불일치 및 데이터 누수 문제를 완화하여 데이터 품질과 실험적 신뢰성 확보
  • DeepSeek-R1 등 9개 언어 모델 테스트 결과, 기존 대비 F1-score 대폭 향상 확인

소프트웨어 결함 탐지 (Software defect detection)는 소프트웨어 공학 (Software engineering)에서 매우 중요한 과업입니다. 그러나 생물정보학 (Bioinformatics) 소프트웨어의 결함 탐지를 구체적으로 다룬 선행 연구는 없었습니다. 결함 탐지 과업의 성능은 주로 모델과 데이터셋 모두에 의해 영향을 받는다는 점을 고려하여, 본 연구의 실험에서는 모델 관련 요인을 통제하였으며 생물정보학 소프트웨어 분야에서 기존 데이터셋들이 가진 한계를 확인했습니다. 이 문제를 해결하기 위해, 우리는 생물정보학 소프트웨어의 결함 탐지를 위해 특별히 설계된 최초의 데이터셋인 BioDefect을 소개하며, 이를 통해 해당 분야 기존 데이터셋의 한계를 극복하고자 합니다. 기존 데이터셋과 달리, BioDefect은 완전한 소스 코드 저장소 (Source code repositories)를 포함하여 결함이 있는 코드의 실제 문맥 정보 (Contextual information)를 보존함으로써, 생물정보학 소프트웨어의 실제 결함 시나리오를 더욱 정확하게 반영합니다. 또한, BioDefect은 레이블 불일치 (Label inconsistency) 및 데이터 누수 (Data leakage)와 관련된 문제를 완화하여 높은 데이터 품질과 실험적 신뢰성을 보장합니다. BioDefect의 효과를 평가하기 위해, 우리는 DeepSeek-R1을 포함한 9개의 언어 모델 (Language models, LMs)에 대해 체계적인 평가를 수행했습니다. 결과에 따르면 BioDefect은 생물정보학 소프트웨어의 결함 탐지 성능을 유의미하게 향상시킵니다. 기존 데이터셋과 비교했을 때, BioDefect은 모든 모델에 걸쳐 평균 29.61%에서 38.04%의 F1-score 향상을 달성하며 탁월한 우위를 입증했습니다. 본 연구는 생물정보학 소프트웨어 결함 탐지 분야의 중요한 연구 공백을 메우며, 이 분야의 향후 연구를 위한 토대를 마련하고 생물정보학 소프트웨어 품질 보증 (Quality assurance)을 개선하기 위한 새로운 통찰력을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0