Alibaba Cloud, Agentic Ops를 위한 업계 최초 오픈 소스 근본 원인 분석(RCA) 벤치마크 출시

이 기사는 IT 운영 분야의 AI 에이전트(AI agents)를 평가하기 위한 Alibaba Cloud의 오픈 소스 RCA Benchmark를 소개합니다.

Alibaba Cloud는 Agentic Ops를 위한 표준화된 근본 원인 분석(Root Cause Analysis, RCA) 평가 데이터셋 및 평가 프로토콜 시스템을 구축하기 위해 RCA Benchmark를 출시했습니다. 이는 시스템 수준에서 분산 시스템 장애에 대한 AI 에이전트(AI Agent)의 진단 능력을 평가하는 업계 최초의 오픈 소스 벤치마크 프로젝트이기도 합니다. Alibaba Cloud는 CAICT, 중국과학원 소프트웨어 연구소/컴퓨터 네트워크 정보 센터, 칭화 대학교, 푸단 대학교, 난카이 대학교를 포함하여 관측성(Observability), IT 운영을 위한 인공지능(AIOps), 클라우드 네이티브 인프라 분야의 기관들과 협력하여 산업 생태계를 공동 구축하고, 표준화되고 신뢰할 수 있는 운영(O&M) 에이전트 평가 시스템을 구축함으로써 대규모 산업 도입을 위한 견고한 기반을 마련했습니다.

관측성(Observability) 및 IT 운영을 위한 인공지능(AIOps) 분야에서의 장기적인 제품 구현 및 서비스 실무를 바탕으로, Alibaba Cloud는 근본 원인 분석(Root Cause Analysis, RCA)이 O&M 에이전트 역량 평가에서 가장 복잡하고 표준화하기 어려운 핵심 프로세스라는 점을 인식했습니다. 텍스트 질의응답(Q&A)이나 코드 생성과 같이 고정된 입력값과 정답(Ground Truth)이 있는 작업과 달리, RCA 에이전트(RCA Agents)는 지속적으로 실행되는 복잡한 분산 아키텍처를 대상으로 작동합니다. 이들은 지표(Indicators), 로그(Logs), 트레이싱 분석(Tracing Analysis), 시스템 이벤트와 같은 다중 소스 관측성 데이터에서 유효한 정보를 선제적으로 필터링해야 하며, 서비스 의존성 및 엔티티 토폴로지(Entity Topology) 관계를 기반으로 비정상 전파 경로를 추적하고, 최종적으로 장애의 근본 원인을 찾아내야 합니다. 업계에는 아직 통합되고 체계적인 평가 벤치마크가 확립되지 않아, 다양한 AI 에이전트(AI Agents)의 장애 진단 능력을 객관적으로 비교하거나 기술 진화 및 역량 반복의 효과를 정량화하는 것이 불가능한 상태입니다.

업계는 통일된 RCA 평가 표준을 시급히 필요로 합니다

기업용 Agentic Ops (에이전트 기반 운영)가 대규모 구현 단계에 진입함에 따라, 평가 시스템의 부재는 산업 발전의 핵심적인 제약 요인이 되었습니다. 기존의 평가 패러다임은 IT 운영을 위한 인공지능의 발전 요구 사항을 더 이상 충족할 수 없습니다:

기존 평가 방식의 완전한 실패
근본 원인 분석 (Root Cause Analysis, RCA)은 단순한 텍스트 처리 작업이 아닙니다. AI 에이전트 (AI Agents)는 실시간 지표 쿼리, 로그 분석, Tracing Analysis (트레이싱 분석), 변경 관리 이벤트 평가를 수행해야 하며, 도구 간 협업 진단을 실시해야 합니다. 정적인 로그 조각과 단일 레이블에 의존하는 기존 평가 방식은 에이전트가 완전한 논리적 추론 기반의 진단을 완료한 것인지, 아니면 단순히 경고의 외형에 기반하여 우연히 맞춘 것인지를 구분할 수 없으므로 평가 유효성 측면에서 심각한 결함을 가집니다.
다중 소스 관측 데이터의 표준화 어려움
RCA 평가는 지표, 로그, Tracing Analysis (트레이싱 분석), 시스템 이벤트와 같은 다중 소스 관측 신호를 포함합니다. 이러한 데이터 유형은 시간 및 엔티티 차원에 걸쳐 결합되어 있으며, 장애 영향은 비즈니스 트레이스 (Business Traces)를 따라 계층별로 전파됩니다. 데이터베이스의 슬로우 쿼리 (Slow Query) 장애를 예로 들면, 이는 MySQL 쿼리 시간 증가, 호출된 서비스의 지연 시간 (Latency) 증가, 상위 서비스의 타임아웃 (Timeout), 그리고 프런트엔드의 5xx 에러로 이어지는 연쇄 반응을 일으킵니다. 단일 차원의 관측 데이터는 부분적인 증상만을 나타낼 뿐, 완전한 장애 전파 로직을 역추적할 수 없습니다.
인과 관계 전파 체인으로 인한 평가 오판 가능성
업계에서는 이상 증상과 장애의 근본 원인을 혼동하는 경우가 흔합니다. 프런트엔드 경고는 대부분 장애 트레이스의 끝부분을 반영하지만, 실제 근본 원인은 하위 데이터베이스, 캐시 (Cache), MSMQ 또는 컨테이너 스케줄링 계층에 있는 경우가 많습니다.

만약 데이터셋이 인과적 전파 경로(causal propagation path)를 온전히 묘사하지 못하고, 단순히 경고(alert) 주변의 서비스들을 짚어내는 것만으로 진단이 올바르다고 간주된다면, 평가 에일리어싱(evaluation aliasing)이 발생할 가능성이 매우 높습니다.

도메인 간 엔티티 식별(Cross-domain entity identity)의 통합 규격 부재
동일한 비즈니스 엔티티가 서로 다른 운영 관리(O&M) 시스템 전반에 걸쳐 완전히 파편화된 명명 체계를 가지고 있습니다. 즉, 동일한 비즈니스 엔티티에 대한 명명 규칙이 애플리케이션 성능 관리(APM), Kubernetes, 그리고 클라우드 리소스 계층에 걸쳐 분절되어 있습니다. 이로 인해 평가는 문자 매칭(character matching)이나 수동적인 주관적 판단에 의존할 수밖에 없으며, 이는 불안정한 점수 산출, 결과의 재현 불가능성, 그리고 감사 불가능한 흐름(unauditable flows)과 같은 문제로 이어집니다.

이러한 맥락에서 Alibaba Cloud는 체계적이고 표준화된 RCA 에이전트(Agent) 평가 벤치마크를 구축하는 것이 학술적 연구 주제를 넘어, Agentic Ops의 대규모 구현을 위한 필수적인 인프라로 진화했다고 명확히 밝히고 있습니다.

RCA 벤치마크의 핵심 정의

RCA 벤치마크는 단일 파일 데이터셋이 아니라, 완전한 아키텍처와 폐쇄 루프(closed-loop) 로직을 갖춘 벤치마크 스위트 평가(benchmark suite evaluation) 시스템입니다. 이는 런타임 환경(runtime environment), 구조화된 샘플 세트(structured sample set), 그리고 평가 프로토콜(evaluation protocol)의 세 가지 모듈로 구성됩니다.

런타임 환경 (Runtime Environment): 실제 장애 신호를 생성할 수 있고, AI 에이전트의 대화형 진단 쿼리를 지원하며, 표준 로그 조각만을 제공하던 기존의 패턴을 완전히 탈피한 마이크로서비스 시뮬레이션 시스템을 구축합니다.
구조화된 샘플 세트 (Structured Sample Set): Layer 4 구조의 그라운드 트루스(ground truth)를 갖춘 장애 샘플 라이브러리를 구축합니다. 각 케이스는 장애 유형(fault type), 정규화된 근본 원인 엔티티(normalized root cause entity), 인과적 전파 체인(causal propagation chain), 그리고 핵심 증거 체크포인트(key evidence checkpoints)라는 네 가지 핵심 요소를 모두 포함합니다.
평가 프로토콜 (Evaluation Protocol): AI 에이전트의 출력을 수평적 비교가 가능한 정량적 분수로 변환하기 위해 표준화된 점수 산정 규칙을 정의합니다. 결정론적 규칙(deterministic rules)을 중심으로 설계되어, 거대 언어 모델(LLM) 리뷰에 대한 의존도를 최소화하고 공정하고 객관적인 점수 산출을 보장합니다.

이 프로젝트는 마이크로서비스(Microservices) 모델 장애, 데이터베이스 및 중간 매개체(Intermediary) 장애, 컨테이너 오케스트레이션(Container Orchestration) 및 클라우드 네이티브(Cloud-native) 플랫폼 장애, 클라우드 리소스 계층 장애, 그리고 LLM 및 에이전트(Agent) 런타임 장애를 포함한 모든 주요 시나리오를 다룹니다.

RCA 벤치마크의 핵심 설계 원칙 및 전체 기술 아키텍처

RCA 벤치마크는 **실제 환경 기반의 네이티브 시뮬레이션 (Real-world native simulation)**을 핵심 설계 개념으로 채택합니다. 이 벤치마크는 Kubernetes 클러스터에 배포된 이커머스 마이크로서비스 아키텍처를 기반으로 구축되었으며, 최대 7단계 깊이의 호출 체인(Call chains)을 가진 40개 이상의 비즈니스 서비스를 포함합니다. 합성 데이터(Synthetic data)를 사용하지 않으며, 동기식 RPC, 비동기 메시지(Asynchronous messages), 데이터베이스, 캐시(Caches), MSMQ 및 게이트웨이(Gateways)와 같은 전형적인 비즈니스 의존성을 완전히 포괄합니다. 관측성(Observability) 기반에 대한 전 영역 접근 권한을 통해, 에이전트가 지표(Indicators), 로그(Logs), 트레이싱 분석(Tracing Analysis), 알람(Alerting), 리소스 토폴로지(Resource topology), Kubernetes 이벤트(Kubernetes events), 성능 프로파일링(Performance profiling) 등 7가지 범주의 관측 데이터를 검색할 수 있도록 지원합니다. 차별화된 백그라운드 트래픽을 지속적으로 주입함으로써, 운영 환경의 주야간 변동, 비즈니스 피크(Peaks), 예정된 배치 처리(Batch processing) 페이로드 특성을 재현하여 신뢰할 수 있는 장애 전후 비교 기준선(Baseline)을 구축합니다.

이 프로젝트는 기존의 단일 근본 원인(Root cause) 레이블 패턴을 탈피하여, 혁신적인 4계층 구조의 그라운드 트루스(Ground truth) 시스템을 도입합니다. 이는 장애 유형, 정규화된 엔티티(Entity), 인과 전파 체인(Causal propagation chains), 그리고 핵심 증거 에지 존(Evidence edge zones)을 아우르는 표준화된 정의를 완성합니다. 여기에 **근본 원인 식별(Root cause identification), 경계 구분(Boundary demarcation), 절차(Procedure)**의 세 가지 차원으로 구성된 가중치 점수 산정 프레임워크를 보완하여, 각각 40%, 30%, 30%의 가중치로 종합 점수를 계산합니다. 점수의 약 70%는 장애 유형 토폴로지 의미론적 거리(Topology semantics distance)와 엔티티 토폴로지 거리(Entity topology distance)에 기반한 결정론적 양자화 계산(Deterministic quantization computation)에 의존합니다. 다차원 등급 평가(Multi-dimensional graded evaluation)는 장애 의미론 매칭, 토폴로지 위치 정확도, 진단 증거, 인과 논리 완결성을 포괄하며, 무작위 적중(Random hits)으로 인한 평가 편향을 체계적으로 방지합니다. 전체 프로세스는 투명한 규칙, 재현 가능한 결과, 그리고 감사 가능한 흐름을 특징으로 합니다.

이 플랫폼은 카오스 엔지니어링(Chaos engineering) 도구, Kubernetes 네이티브 운영 및 유지보수(O&M), 스위치 설정, Alibaba Cloud 서비스 API라는 네 가지 주입 채널을 통해 애플리케이션 계층, 미들웨어 계층, 컨테이너 플랫폼 계층, 클라우드 리소스 계층에 걸쳐 6개 카테고리의 40개 이상의 장애 유형에 대한 전 시나리오 커버리지를 달성합니다. 또한 수직 및 수평 차원에 걸친 장애 커버리지 그래프를 구축하여 포괄적이고 균형 잡힌 평가 범위를 보장합니다. 파편화된 교차 도메인 엔티티 식별이라는 업계의 페인 포인트(Pain point)를 해결하기 위해, 플랫폼은 모든 엔티티에 교차 도메인 고유 기본 키(Primary keys)를 할당하는 통합 엔티티 모델(UModel)을 통합합니다. 이를 통해 표준화된 정규화 흐름을 통해 멀티 도메인 엔티티 매핑 및 토폴로지 거리 계산을 완료하며, 엔드 투 엔드(End-to-end) 추적성, 재현성 및 감사 가능성을 구현합니다.

또한 이 시스템은 구조 사양(structure specifications), 신호 유효성(signal validity), 시간 창(time windows) 및 개방형 적응성 설정(open adaptability settings)을 아우르는 다중 승인 검사를 포함하는 4계층 GSTO 품질 게이트(Quality Gate)를 구축하여, 실패 체인 에일리어싱(failure chain aliasing)이 있는 무효 샘플을 엄격하게 필터링합니다. 현재까지 모든 실패 유형 카테고리를 아우르는 200개 이상의 준수 샘플이 축적되었으며, 이는 4가지 난이도 레벨(L1–L4)로 분류됩니다. 이 중 L2 및 L3의 중·고난도 시나리오가 핵심 평가 초점 역할을 합니다.

본 프로젝트는 오픈 소스 공동 구축(co-construction) 원칙을 준수합니다. 평가 프레임워크(evaluation frame), 실패 디렉토리(failure directory), 점수 프로토콜(scoring protocol) 및 품질 게이트(Quality Gate)를 포함한 핵심 역량은 완전히 오픈 소스로 공개되며, 관측성(observability) 벤더, Agentic Ops 개발자 및 기업 SRE 팀에 공동 구축 채널을 개방합니다. 비공개로 예약된 테스트 샘플과 준수 게이트(compliance gates)는 데이터 오염을 방지하고 업계 평가 순위의 공정성과 신뢰성을 보장합니다.

Alibaba Cloud의 오픈 소스 RCA 벤치마크는 업계의 Agentic Ops를 위한 표준화되고 재현 가능하며 감사 가능한 통합 역량 척도를 구축하여, 서로 다른 에이전트(agents) 간의 진단 역량에 대한 객관적인 벤치마킹과 정량적 측정을 가능하게 합니다. 계층화된 난이도 시스템과 전체 시나리오 실패 커버리지를 활용하여, 기업의 기술 선택 및 비즈니스 구현 반복을 지원합니다. 핵심 역량을 오픈 소스로 공개함으로써 자체 평가 시스템을 구축하는 비용을 크게 절감합니다. 동적 데이터셋 업데이트, 포화도 모니터링(saturation monitoring) 및 폐쇄 루프 시나리오 피드백 메커니즘을 통해, 이 벤치마크는 역량을 지속적으로 반복 개선하며 장기적으로 진화하고 개방적이며 공유되는 O&M 지능형 에이전트 산업 생태계를 공동 구축합니다.

모든 실패 평가를 증거 기반으로 만들고, 모든 진단 역량을 정량화, 벤치마킹 및 진화 가능하게 만드십시오.

Alibaba Cloud, Agentic Ops를 위한 업계 최초 오픈 소스 근본 원인 분석(RCA) 벤치마크 출시

요약

핵심 포인트

댓글