OpenRCA 2.0: 결과 레이블에서 인과적 과정 감독으로
요약
OpenRCA 2.0은 LLM 에이전트의 근본 원인 분석(RCA) 능력을 평가하기 위해 인과적 전파 경로를 포함한 단계별 레이블링 프로토콜 PAVE를 도입했습니다. 기존의 결과 중심 평가가 가진 한계를 지적하며, 신뢰할 수 있는 에이전트 구축을 위한 인과적 주석의 중요성을 강조합니다.
핵심 포인트
- 기존 RCA 데이터셋의 패턴 매칭 한계 지적
- 인과적 전파 경로 재구성을 위한 PAVE 프로토콜 도입
- 최초의 단계별 인과 주석 포함 RCA 벤치마크 구축
- 프런티어 LLM의 낮은 근본 원인 복구 성공률(20.7%) 확인
- 결과 중심 평가가 에이전트의 오류를 숨기는 문제 제기
근본 원인 분석 (Root cause analysis, RCA)은 긴 문맥 이해 (long-context understanding), 다단계 추론 (multi-step reasoning), 도구 사용 (tool use)과 같은 LLM 에이전트 역량에 대한 총체적인 시험을 제공합니다. 그러나 기존 데이터셋은 근본적인 격차를 겪고 있습니다. 즉, 관찰된 증상과 연결되는 전파 경로 (propagation path)를 레이블링하지 않고 오직 근본 원인만을 레이블링하기 때문에, 이 과업을 단순한 패턴 매칭 (pattern matching) 수준으로 크게 단순화합니다. 엄격한 평가를 지원하기 위해, 우리는 결함 주입 (fault injection)으로부터 알려진 개입 (interventions)을 활용하여 인과적 전파 경로를 재구성하는 단계별 레이블링 프로토콜인 PAVE를 도입합니다. 이 메커니즘은 순방향 검증 (forward verification) 방식으로, 증상으로부터 역으로 추론하는 것이 아니라 원인에서 결과로 추론합니다. PAVE를 적용하여 LLM 에이전트를 위한 단계별 인과 주석 (causal annotations)이 포함된 최초의 교차 시스템 RCA 벤치마크인 OpenRCA 2.0 (500개 인스턴스)을 구축했습니다. 11개의 프런티어 LLM (frontier LLMs)을 대상으로 테스트한 결과, 정확한 근본 원인 세트를 복구하는 데 성공한 사례는 평균 20.7%에 불과했습니다. 이러한 어려움이 어디에 있는지 파악하기 위해 기준을 완화해 본 결과, 우리는 이를 '근거 없는 진단 (ungrounded diagnosis)'이라고 부릅니다. 에이전트들은 76.0%의 사례에서 적어도 하나의 올바른 근본 원인 서비스를 식별하지만, 해당 서비스를 관찰된 증상으로 이어지는 검증된 인과적 전파 경로에 근거하여 설명하는 데는 61.5%만 성공했습니다. 결과 중심의 평가 (Outcome-only evaluation)는 이러한 실패 모드를 숨깁니다. 단계별 인과적 정답 (step-wise causal ground truth)은 신뢰할 수 있는 LLM 기반 RCA 에이전트를 위한 누락된 조각입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기