다중 소스 사이버 보안 로그: ATT&CK 레이블이 지정된 데이터셋 및 SLM 평가
요약
다단계 사이버 공격 탐지를 위해 시스템, 네트워크, 브라우저 로그를 통합하고 MITRE ATT&CK 기술 레이블을 부여한 새로운 데이터셋을 제안합니다. 해당 데이터셋을 활용해 Qwen2.5, Llama-3.2, Phi-4-Mini와 같은 소형 언어 모델(SLM)을 LoRA로 미세 조정하여 보안 로그 분석 성능을 입증했습니다.
핵심 포인트
- 시스템·네트워크·브라우저 로그를 통합한 다중 소스 데이터셋 구축
- MITRE ATT&CK 기술 ID를 활용한 세밀한 레이블링 적용
- LoRA를 통한 SLM 미세 조정으로 청크 분류 정확도 대폭 향상
- 기술 식별 작업에서의 SLM 성능 및 추론 능력 검증
다단계 사이버 공격(Multi-stage cyberattacks)은 시스템, 네트워크, 브라우저 로그에 걸쳐 발생합니다. 이를 탐지하기 위해서는 이 세 가지 소스 전체에 걸친 이벤트 간의 상관관계(correlating)를 분석해야 합니다. 머신러닝(Machine learning) 방법론은 이러한 교차 소스 패턴을 학습할 수 있지만, 레이블이 지정된 다중 소스 데이터가 필요합니다. 기존의 공개 데이터셋은 이에 미치지 못합니다. CICIDS 및 UNSW-NB15와 같은 네트워크 전용 데이터셋은 호스트 및 브라우저 활동을 놓칩니다. LMDG 및 CICAPT-IIoT와 같은 호스트 중심 데이터셋은 브라우저 텔레메트리(telemetry)가 부족합니다. ATLAS는 세 가지 소스를 모두 포함하지만, 이벤트를 악성(malicious) 또는 정상(benign)으로만 레이블링할 뿐, MITRE Adversarial Tactics, Techniques, and Common Knowledge (ATT&CK) 기술(technique) 수준의 세밀함은 제공하지 않습니다. 세 가지 소스를 모두 결합하면서 항목별 ATT&CK 기술 레이블을 포함하는 공개 데이터셋은 현재 없습니다. 우리는 870개 세션(공격 70개, 정상 800개)과 약 230만 개의 이벤트를 포함하는 다중 소스 로그 데이터셋을 구축하여 이 격차를 해소합니다. 우리는 Windows 엔드포인트에서 시스템, 네트워크, 브라우저 활동을 동시에 캡처했습니다. 우리는 악성 이벤트를 12개의 전술(tactics)과 53개의 기술(techniques)을 아우르는 ATT&CK 기술 ID로 레이블링했습니다. 모든 공격 데이터는 원격 액세스 트로이목마(Remote Access Trojan, RAT), 명령 및 제어(Command and Control, C2) 터널, 클라우드 데이터 유출(cloud exfiltration)을 포함한 실제 도구들을 사용하여 생성했습니다. 학습 가능성을 입증하기 위해, 우리는 저차원 적응(Low-Rank Adaptation, LoRA)을 사용하여 세 가지 소형 언어 모델(Small Language Models, SLMs) (Qwen2.5-1.5B, Llama-3.2-3B, Phi-4-Mini)을 미세 조정(fine-tuned)했습니다. 우리는 청크 분류(chunk classification) 및 ATT&CK 기술 식별(technique identification)이라는 두 가지 작업에 대해 10가지 지표를 사용하여 각 모델을 베이스 변형(base variant) 모델과 비교했습니다. 미세 조정은 모든 지표에서 모든 모델의 성능을 향상시켰습니다. 청크 분류 정확도는 베이스 변형 모델의 약 8%에서 미세 조정 후 90%에서 97% 사이로 상승했습니다. 기술 식별은 여전히 도전적인 과제로 남아 있어 최상의 완전 일치(exact-match) 정확도는 42%였으나, 높은 부분 일치(partial-match) 점수는 모델이 기저의 추론 과정을 대부분 포착했음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기