본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 12:53

GitReq: 소프트웨어 품질 요구사항을 위한 골드 표준 데이터셋

요약

소프트웨어 품질 요구사항 분류를 위한 새로운 골드 표준 데이터셋인 GitReq를 공개합니다. 4,080개 저장소에서 추출한 6,302개의 이슈를 ISO/IEC 25010 표준에 따라 8개 카테고리로 라벨링했습니다.

핵심 포인트

  • ISO/IEC 25010 표준 기반 8개 품질 카테고리 분류
  • 전문가 검증을 거친 6,302개의 고품질 데이터셋 구축
  • LLM을 활용한 제로샷 평가 및 베이스라인 성능 확인
  • 자동화된 요구사항 분류 및 소프트웨어 품질 분석 연구 지원

GitHub 이슈 트래커(issue trackers)에는 성능 병목 현상(performance bottlenecks) 및 보안 취약점(security vulnerabilities)을 포함하여 개발자가 작성한 수백만 개의 품질 관련 사항이 포함되어 있지만, 이러한 사항들을 세분화된 소프트웨어 품질 카테고리로 분류한 공개 가능한 GitHub 데이터셋은 아직 없습니다. 우리는 4,080개의 저장소(repositories)에 걸친 55,588개의 원시 GitHub 후보군에서 추출하여 전문가 검증을 거친 6,302개의 요구사항으로 구성된 GitReq GitHub 요구사항 이슈(GitReq GitHub Requirement Issue)를 구축하여 공개합니다. 이 데이터셋은 ISO/IEC 25010:2011에 정렬된 8가지 카테고리인 성능(Performance), 보안(Security), 이식성(Portability), 가용성(Availability), 결함 허용성(Fault-tolerance), 확장성(Scalability), 유지보수성(Maintainability) 및 기능적 기준선(Functional baseline)으로 라벨링되었습니다. 데이터셋 구축에는 카테고리별 트리플-시그널(triple-signal) GitHub 마이닝, 카테고리별 파라미터가 적용된 별도의 비기능적 요구사항(NFR) 및 기능적 요구사항(FR) 전처리 파이프라인, 그리고 상당한 평가자 간 일치도(Fleiss' Kappa~=~0.72)를 달성한 전문가 수동 주석(expert human annotation) 과정이 포함되었습니다. 4개의 대규모 언어 모델(LLMs)을 이용한 제로샷 평가(Zero-shot evaluation)를 통해 베이스라인을 설정하였으며, GPT-5.2가 0.641의 가장 높은 매크로 평균 F1(macro-averaged F1) 점수를 기록했습니다. GitReq는 자동화된 요구사항 분류 및 소프트웨어 품질 분석 연구를 발전시키기 위해 모든 자료와 함께 공개적으로 출시되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0