arXiv논문2026. 06. 04. 13:21

NLLog: 로그-언어 재작성(Log-to-Language Rewriting)을 통한 경량화 및 설명 가능한 SOC 이상 탐지

요약

NLLog는 시스템 로그를 자연어 문장으로 재작성하여 보안 모니터링의 효율성을 높이는 경량 파이프라인을 제안합니다. TF-IDF와 트리 앙상블을 활용해 SOC 이상 탐지 성능을 높였으며, TreeSHAP을 통해 분석 가능한 설명력을 제공합니다.

핵심 포인트

로그를 WHO-WHAT-SEVERITY 구조의 자연어로 재작성
트리 앙상블과 TF-IDF를 활용한 경량화된 이상 탐지
TreeSHAP을 통한 탐지 근거의 설명 가능성 확보
HDFS 및 BGL 데이터셋에서 기존 베이스라인 성능 능가

시스템 생성 로그(System-generated logs)는 보안 모니터링의 근간을 이루지만, 경직된 템플릿 기반 형식은 자동화된 분석과 인간의 이해를 모두 저해합니다. 본 논문에서는 파싱된 템플릿을 WHO-WHAT-SEVERITY(누가-무엇을-심각도) 문장으로 결정론적(deterministically)으로 재작성하고, 이를 TF-IDF(term-frequency-inverse-document-frequency) 가중치를 사용하여 풀링(pooling)하며, 트리 앙상블(tree ensembles)로 세션을 분류하고, 분석가 검토를 위해 TreeSHAP으로 증거를 역투영(back-projects)하는 경량 파이프라인인 NLLog (Natural-Language Log)를 제안합니다. Hadoop Distributed File System (HDFS) 및 Blue Gene/L (BGL) 코퍼스(corpora)에서 NLLog는 재현된 두 개의 매칭 프로토콜 베이스라인(matched-protocol baselines)을 능가했습니다. HDFS, BGL 및 AIT Alert Data Set 전반에 걸쳐, NLLog는 보안 운영 센터(SOC)의 분류(triage)에 적합한 범용 하드웨어 지연 시간(commodity-hardware latency)을 유지하면서 낮은 오탐률(false-positive rates)을 유지합니다. 커버리지(Coverage), 희소 대 밀집(sparse-versus-dense), 충실도(faithfulness) 및 적대적 절제 연구(adversarial ablations)를 통해, 폴백(fallback)의 충분성은 코퍼스에 따라 달라질 수 있으며, 등록 시점의 커버리지 확인을 통해 배포 전 개선 요구 사항을 파악할 수 있고, 경량 밀집 인코딩(lightweight dense encoding)과 결합된 감사 가능한 결정론적 재작성이 로그 이상 탐지 및 분류를 위한 측정 가능한 표현 계층(representation layer)을 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

NLLog: 로그-언어 재작성(Log-to-Language Rewriting)을 통한 경량화 및 설명 가능한 SOC 이상 탐지

요약

핵심 포인트

댓글