보안 소프트웨어 공학을 위한 EVerest 데이터셋
요약
EVerest 소프트웨어 스택을 기반으로 요구사항, 아키텍처, 코드를 아우르는 엔드 투 엔드 보안 검증용 멀티 아티팩트 데이터셋을 제안합니다. 보안 목표와 세밀한 레이블이 포함된 이 데이터셋은 보안 요구사항 분류 및 설계/코드 수준의 보안 검증 연구를 지원합니다.
핵심 포인트
- 요구사항, 아키텍처, 소스 코드를 통합한 멀티 아티팩트 데이터셋 제공
- 84개의 보안 요구사항 및 1,445개의 세밀한 보안 요소 포함
- 보안 요구사항 분류 및 아키텍처 추적 연결 연구에 최적화
- 실제 보안 약점(CWE-1295) 발견 및 수정 사례 포함
요구사항(Requirements)부터 아키텍처(Architecture), 코드(Code)에 이르기까지 엔드 투 엔드(End-to-end) 보안 검증을 위해서는 세 가지 아티팩트(Artifact) 유형 모두를 아우르며 세밀한 보안 레이블(Security labels)을 포함하는 데이터셋이 필요합니다. 현재까지 이러한 조합을 제공하는 기존 데이터셋은 존재하지 않습니다. 본 논문에서는 전기차 충전소를 위한 산업 주도형 오픈 소스 소프트웨어 스택인 EVerest를 기반으로 한 멀티 아티팩트(Multi-artifact) 리소스인 EVerest 데이터셋을 제시합니다. 이 데이터셋은 보안 목표(Security objectives)가 주석 처리된 84개의 수동 추출 보안 요구사항, 1,445개의 세밀한 보안 요소(구성 요소, 엔티티, 데이터, 데이터 흐름, 상태 등), 수락 범위(Acceptance windows), 상호 참조(Coreferences), 아키텍처 추적 링크(Architectural trace links)를 비롯하여, EVerest 소프트웨어 아키텍처 모델, 소스 코드, 자연어 문서(Natural language documentation)를 포함합니다. 이를 통해 보안 요구사항 분류(Security requirements classification), 개체명 인식(Named entity recognition), 아키텍처 추적 연결(Architectural trace linking), 그리고 설계 시점(Design-time) 또는 코드 수준(Code-level)의 보안 검증에 관한 연구가 가능합니다. 데이터셋 구축 과정에서 실제 보안 약점(CWE-1295)이 발견되어 프로젝트 유지 관리자에게 공개되었으며, 이후 수정되었습니다. 해당 데이터셋은 공개적으로 사용 가능합니다. 짧은 영상은 https://youtu.be/pnn1uqpomvQ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기