arXiv논문2026. 06. 17. 12:36

CTI 보고서의 다중 레이블 ATT&CK 기법 분류를 위한 오픈 소스 LLM 평가

요약

비정형 CTI 보고서에서 다중 레이블 ATT&CK 기법을 분류하기 위한 오픈 소스 LLM의 성능을 평가한 연구입니다. 연구진은 2,076개의 정밀한 데이터셋을 구축하여 8B~236B 규모의 모델들을 테스트했습니다. 실험 결과, 현재의 오픈 소스 LLM은 실제 프로덕션 환경의 복잡한 CTI 분류를 수행하기에는 성능이 부족함을 확인했습니다.

핵심 포인트

복잡한 비정형 CTI 보고서용 고품질 그라운드 트루스 데이터셋 구축
8B에서 236B 파라미터 규모의 7개 오픈 소스 LLM 성능 비교
모델 파라미터 크기와 F1 점수 간의 양의 상관관계 확인
현재 오픈 소스 LLM의 실무 적용 한계점 및 벤치마크 제시

MITRE Adversarial Tactics, Techniques, and Common Knowledge (ATT&CK)를 사용하여 사이버 위협 인텔리전스 (Cyber Threat Intelligence, CTI)를 분류하는 것은 선제적 방어를 위해 필수적이지만, 역사적으로 광범위한 인적 노력이 필요했습니다. 대규모 언어 모델 (Large Language Model, LLM) 자동화 이전에는 이 프로세스가 가속화되었으나, 비정형 CTI 보고서에서 발견되는 복잡한 언어와 다단계 공격 패턴을 해결할 수 없었습니다. LLM은 문맥적 추론을 사용하여 비정형 텍스트를 이해함으로써 이전의 한계점들을 해결했습니다. 그러나 현재의 평가들은 실제 CTI 보고서의 복잡성을 무시한 단순화된 단일 기법 문장에 의존하고 있으며, 이는 종종 부풀려진 성능 결과로 이어집니다. 결과적으로, 복잡한 비정형 CTI 보고서에 대한 오픈 소스 LLM의 기본 성능은 여전히 평가되지 않은 상태로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 83개의 복잡한 비정형 CTI 보고서로부터 2,076개의 인간 주석이 달린 문장 (1,281개 기법 긍정, 795개 부정)으로 구성된 그라운드 트루스 (ground-truth) 데이터셋을 구축했습니다. 이 문장들은 6단계 주석 프로세스를 통해 114개의 고유한 ATT&CK 기법에 매핑되었으며, extkappa = 0.68의 주석자 간 일치도 (inter-annotator agreement)를 달성했습니다. 이 데이터셋을 사용하여, 우리는 프롬프트 전략 (prompt strategy) 및 온도 (temperature) 설정에 따라 8B에서 236B 파라미터에 이르는 7개의 오픈 소스 LLM을 평가했습니다. 가장 높은 성능을 보인 LLM은 0.22의 마이크로 평균 F1 점수 (micro-averaged F1 score)를 기록하며, 복잡한 비정형 CTI에 대한 다중 레이블 ATT&CK 분류의 경험적 기준점 (empirical baseline)을 수립했습니다. 파라미터 크기는 F1 점수와 통계적으로 유의미한 양의 상관관계를 보였습니다. 프롬프트 전략과 온도는 모델 구성 전반에 걸쳐 통계적으로 유의미한 이득을 생성하지 않았습니다. 이러한 결과는 현재의 오픈 소스 LLM이 프로덕션 등급의 ATT&CK 분류를 수행하기에는 불충분함을 나타냅니다. 본 데이터셋, 벤치마크 및 연구 결과는 향후 CTI 연구를 위한 재현 가능한 토대를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

CTI 보고서의 다중 레이블 ATT&CK 기법 분류를 위한 오픈 소스 LLM 평가

요약

핵심 포인트

댓글