arXiv논문2026. 06. 30. 10:23

마이크로서비스 장애 진단에서의 LLM 에이전트 평가를 위한 다중 데이터셋 벤치마크

요약

마이크로서비스 장애 진단 시 LLM 에이전트의 추론 과정을 체계적으로 평가하기 위한 새로운 벤치마크와 데이터셋을 제안합니다. 기존의 결과 중심 평가를 넘어 국소화, 식별, 추론의 세 가지 차원에서 에이전트의 능력을 검증합니다.

핵심 포인트

결과 중심이 아닌 추론 과정 중심의 에이전트 평가 패러다임 도입
AIOps2025 및 RCA100이라는 두 개의 대규모 데이터셋 공개
국소화, 식별, 추론의 세 가지 차원으로 진단 능력 평가
500개 이상의 전문가 라벨링된 장애 사례 및 인과적 근거 포함
대규모 경진대회를 통해 검증된 실제 마이크로서비스 환경 데이터

LLM 기반 에이전트(LLM-based agents)는 마이크로서비스 운영을 AgentOps로 재편하고 있으며, 여기서 벤치마크는 멀티모달 관측 가능성(multimodal observability) 데이터에 대한 장애 진단을 평가하는 핵심 요소입니다. 그러나 기존의 벤치마크는 여전히 결과 중심적입니다. 즉, 최종 답변만을 점수화할 뿐 장애 진단 과정에서의 체계적인 추론 과정을 평가하지 못합니다. 우리는 에이전트의 진단 능력을 세 가지 차원인 국소화(Localization, 장애 발생 위치), 식별(Identification, 장애 유형), 추론(Reason, 추론 과정이 관련 근거에 기반하는지 여부)에 따라 평가하는 추론 과정 평가 패러다임 하에 두 개의 대규모 데이터셋(AIOps2025 및 RCA100)을 도입하여 이 격차를 해소합니다. 이 두 데이터셋은 두 개의 대표적인 마이크로서비스 시스템(HipsterShop 및 OpenTelemetry Demo Store)에 걸쳐 500개 이상의 전문가 라벨링된 장애 사례로 구성됩니다. 이들은 리소스, 네트워크, 런타임(runtime), 미들웨어/데이터베이스, 애플리케이션 로직 카테고리에 걸친 다양한 장애 시나리오를 다루며, 에이전트 학습 및 추론 과정 평가를 지원하기 위한 세밀한 인과적 근거(causal evidence)를 제공합니다. 규모와 범위를 넘어, 이 데이터셋들은 도메인 전문가들에 의해 신중하게 라벨링되었으며 6,000개 이상의 참가 팀이 참여한 대규모 경진대회를 통해 검증되었습니다. 이는 이 데이터셋들이 단순히 전문가가 라벨링한 진단 데이터셋일 뿐만 아니라, 실제 마이크로서비스 환경에서 에이전트의 장애 진단을 평가하기 위해 경진대회로 검증된 벤치마크임을 의미합니다. 데이터셋은 https://www.aiops.cn/gitlab/aiops-live-benchmark/agenticopseval 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

마이크로서비스 장애 진단에서의 LLM 에이전트 평가를 위한 다중 데이터셋 벤치마크

요약

핵심 포인트

댓글