arXiv논문2026. 05. 22. 11:28

FAME: 메시지 수준 로그 이상 탐지를 위한 장애 인지형 Mixture-of-Experts

요약

FAME은 LLM을 활용하여 로그 메시지 수준의 이상 탐지를 수행하는 Mixture-of-Experts 프레임워크입니다. 레이블링 비용을 최소화하면서도 장애 도메인을 분할하여 정밀한 이상 탐지를 가능하게 합니다.

핵심 포인트

LLM을 오프라인에서 사용하여 레이블링 효율성 극대화
메시지 수준의 미세한 입도로 장애 원인 식별 가능
경량 라우터와 도메인 전문가 모델을 통한 온프레미스 실행
BGL 및 Thunderbird 데이터셋에서 높은 F1 스코어 달성

운영 시스템은 매일 수백만 개의 로그 라인을 생성하지만, 대부분의 이상 탐지기(anomaly detectors)는 세션(session) 또는 윈도우(window) 수준에서 작동하여, 특정 원인이 되는 메시지를 식별하기보다는 라인 그룹을 플래그로 표시합니다. 이러한 거친 입도(coarse granularity)로 인해 운영자는 경고당 많은 루틴 라인을 검사해야 하는 상황에 직면합니다. 메시지 수준(Message-level) 탐지는 더 미세한 입도를 제공하지만 여전히 도전적인 과제로 남아 있습니다. 단일 이벤트 템플릿(event template)이 정상 메시지와 이상 메시지 모두에 대응할 수 있고, 장애는 이질적인 서브시스템(subsystems)에서 발생하며, 대규모의 라인 수준 레이블링(line-level labeling)은 비현실적이기 때문입니다. 대규모 언어 모델(LLMs)이 로그 의미론(semantics)에 대해 추론할 수 있음에도 불구하고, 모든 라인에 이를 적용하는 것은 지속적인 모니터링을 수행하기에 비용이 너무 많이 듭니다. 우리는 LLM을 오프라인에서 단 한 번만 사용하는 레이블 효율적인 메시지 수준 Mixture-of-Experts 프레임워크인 FAME (Failure-Aware Mixture-of-Experts)을 제안합니다. 우리는 이진 정상/이상 지표(binary normal/anomaly indicators)와 대표 사례를 도출하기 위해 템플릿당 최대 K개의 레이블이 지정된 라인을 주석(annotate)합니다. LLM은 템플릿을 장애 도메인(failure domains)으로 분할할 것을 제안하며, 인증(certification) 단계를 통해 훈련 전에 해당 제안을 검증합니다. FAME은 온프레미스(on-premise)에서 실행되며 이상 예측과 장애 도메인 레이블을 출력하는 경량 라우터(router)와 도메인 전문가(domain experts)를 훈련합니다. BGL 데이터셋에서 FAME은 K = 100일 때 F1 = 98.16을 달성하여 주석 작업량을 76배 줄였으며, 보지 못한 EventID로부터 발생하는 이상치의 86.3%를 탐지했습니다. Thunderbird 데이터셋에서 FAME은 완벽한 재현율(recall)과 함께 F1 = 99.95에 도달했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

FAME: 메시지 수준 로그 이상 탐지를 위한 장애 인지형 Mixture-of-Experts

요약

핵심 포인트

댓글