arXiv논문2026. 06. 30. 11:52

풀링된 리더보드는 시스템별 승자를 숨긴다: 오프라인 근본 원인 분석(RCA) 벤치마크의 보고 프로토콜 감사

요약

오프라인 근본 원인 분석(RCA) 벤치마크가 단일 통합 점수만을 사용하여 시스템별 성능 차이를 은폐하는 문제를 분석합니다. 연구 결과, 통합 점수 기반의 방법론 선택이 특정 서브시스템에서는 성능 저하를 초래할 수 있음을 입증하고 감사 모듈을 공개합니다.

핵심 포인트

통합된 Top-1 정확도 점수가 서브시스템별 성능 차이를 왜곡할 수 있음
OpenRCA, RCAEval, PetShop 벤치마크 제품군을 대상으로 심층 감사 수행
특정 서브시스템 제외 시 기존 상위 방법론의 성능이 급격히 하락하는 현상 발견
벤치마크 점수의 안정성을 재계산할 수 있는 320라인의 감사 모듈 공개

오프라인 근본 원인 분석 (RCA) 벤치마크는 일반적으로 여러 서브시스템 (subsystems)에 걸친 단일 풀링된 Top-1 정확도 (top-1 accuracy)로 방법론들의 순위를 매기며, 엔지니어들은 종종 이 풀링된 승자를 자신의 서브시스템에 대한 권장 사항으로 해석하곤 합니다. 우리는 11개의 서브시스템과 778개의 매칭된 스코어링 유닛 (scoring units)을 포함하는 세 가지 공개 RCA 벤치마크 제품군인 OpenRCA, RCAEval, PetShop를 대상으로 이러한 해석을 감사합니다. 동일한 사례에 대한 쌍체 비교 (pairwise comparisons)를 유지하기 위해, 주요 분석에서는 완전한 커버리지를 가진 네 가지 방법론 또는 비교 대상인 BARO, CD-1min 어댑터 (adapter), max-$|Z|$, 그리고 서비스별 알람 수 (per-service alert-count)를 유지합니다. 6개의 쌍체 비교 모두에서 양방향의 서브시스템 수준 효과가 나타났으며, 모든 랜덤 효과 (random-effects) 95% 예측 구간 (prediction interval)이 0을 통과하였고, 사례 수준의 상호작용 테스트 (case-level interaction tests)는 6개 쌍 중 5개에서 교환 가능성 (exchangeability)을 기각했습니다. Leave-one-system-out 선택 방식은 제외된 11개 서브시스템 중 최대 5개에서 더 낮은 점수를 받은 방법론을 선택했으며, 후회 (regret) 값은 RCAEval / Sock-Shop에서 24.8 pp에 달했습니다. 우리는 320라인의 감사 모듈을 공개합니다. 매칭된 RCA 벤치마크 점수 테이블이 주어지면, 이 모듈은 풀링된 점수와 함께 동일한 서브시스템별 안정성 검사를 재계산합니다.

AI 자동 생성 콘텐츠

원문 바로가기

풀링된 리더보드는 시스템별 승자를 숨긴다: 오프라인 근본 원인 분석(RCA) 벤치마크의 보고 프로토콜 감사

요약

핵심 포인트

댓글