arXiv논문2026. 05. 26. 13:38

패밀리 및 유형별 적대적 악성코드 데이터셋 구축: 생성, 회피 및 오염 평가

요약

RawMal-TF 컬렉션을 기반으로 패밀리 및 유형별 레이블이 지정된 적대적 악성코드 데이터셋을 구축했습니다. EMBER 분류기에 대해 높은 회피율을 달성했으며, 데이터 오염 공격이 악성코드 탐지 시스템의 강건성에 미치는 취약성을 입증했습니다.

핵심 포인트

패밀리 및 유형별 레이블이 포함된 대규모 적대적 악성코드 데이터셋 구축
EMBER 분류기에 대해 최대 98.35%의 높은 회피율 달성
0.5%의 오염된 데이터 주입만으로 분류기 회피율이 급증하는 취약성 확인
머신러닝 기반 악성코드 탐지 시스템의 강건성 연구를 위한 데이터 공개

우리는 실제 악성코드 바이너리(binaries)의 공개된 RawMal-TF 컬렉션에서 유도된 적대적 악성코드(adversarial malware) 샘플 데이터셋을 제시합니다. 일련의 적대적 악성코드 생성기(adversarial malware generators)를 사용하여, 우리는 두 세트의 적대적 PE 파일들을 구축했습니다: 패밀리 레이블(family-labelled)이 지정된 44,347개의 샘플과 유형 레이블(type-labelled)이 지정된 33,596개의 샘플로, EMBER 분류기(classifier)에 대해 각각 98.35%와 92.20%의 회피율(evasion rates)을 달성했습니다. 각 적대적 바이너리에는 EMBER 점수 및 VirusTotal 분류를 포함한 상세한 메타데이터(metadata)가 함께 제공됩니다. 나아가 우리는 일련의 학습 실험을 통해 데이터 오염 공격(data poisoning attacks)에 대한 악성코드 분류 파이프라인(malware classification pipelines)의 취약성을 입증합니다. 패밀리 레이블 데이터셋의 학습 데이터 중 단 0.5%에 해당하는 완전히 잘못 레이블링된(mislabelled) 적대적 샘플을 주입했을 때, 재학습된 분류기에 대한 회피율은 26.1%에서 92.8%로 증가합니다. 이 데이터셋은 적대적 악성코드, 오염 공격, 그리고 머신러닝(machine-learning) 기반 악성코드 탐지 시스템의 강건성(robustness)에 관한 향후 연구를 촉진하기 위해 공개적으로 배포됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

패밀리 및 유형별 적대적 악성코드 데이터셋 구축: 생성, 회피 및 오염 평가

요약

핵심 포인트

댓글