arXiv논문2026. 04. 29. 16:37

RCProb: 트리 앙상블의 효율적 단순화를 위한 확률론적 규칙 추출

요약

본 논문은 복잡한 트리 앙상블 모델의 해석 가능성 문제를 해결하기 위해, 결정 규칙(decision rules)을 추출하는 새로운 확률론적 방법을 제안합니다. 기존 방법인 RuleCOSI+는 정확하지만 대규모 데이터셋에서 계산 비용이 높다는 단점이 있었습니다. 따라서 RCProb은 Dirichlet 및 Beta 평활화를 사용하여 반복적인 데이터 스캔 없이 효율적으로 규칙 통계를 추정함으로써, 컴팩트한 규칙 세트를 유지하면서도 런타임 속도를 크게 개선했습니다.

핵심 포인트

트리 앙상블 모델의 해석 가능성(XAI) 확보가 중요하며, 결정 규칙 추출이 효과적인 방법이다.
기존 RuleCOSI+는 계산 비용 문제로 인해 대규모 데이터셋 적용에 한계가 있었다.
RCProb은 Dirichlet 및 Beta 평활화를 활용하여 반복적인 데이터 스캔을 피하고 효율성을 높였다.
실험 결과, RCProb은 기존 방식 대비 런타임 속도를 크게 개선하면서도 컴팩트한 규칙 세트를 생성하고 경쟁력 있는 예측 성능을 유지했다.

트리 앙상블 (Tree ensembles) 은 강력한 예측 성능과 효율적인 학습 절차로 인해 산업용 머신러닝에서 널리 사용되고 있습니다. 그러나 앙상블 내 트리의 수가 증가함에 따라, 생성된 모델은 인간이 해석하기 점점 더 어려워집니다. 이 한계를 해결하기 위해, 설명 가능한 인공지능 (XAI) 은 복잡한 예측기를 설명할 수 있는 가해 가능한 모델을 생성하는 방법을 연구합니다. 하나의 접근법은 원래 모델의 예측 성능을 유지하면서 트리 앙상블에서 결정 규칙 (decision rules) 을 추출하는 것입니다. 이전 작업에서 우리는 트리 앙상블에서 컴팩트한 규칙 기반 모델을 추출하기 위한 탐욕적 휴리스틱 알고리즘인 RuleCOSI+ 를 소개했습니다. RuleCOSI+ 는 정확하고 가해 가능한 규칙 세트를 생성하지만, 규칙 신뢰도를 추정하기 위해 학습 데이터에 대한 반복적인 경험적 빈도 계수 (empirical frequency counting) 에 의존하여, 대규모 데이터셋의 경우 계산 비용이 많이 듭니다. 본 논문에서는 규칙 추출의 계산 비용을 줄이기 위한 RuleCOSI+ 의 확률론적 재구형인 RCProb 를 제안합니다. RCProb 는 Naive Bayes 형식을 통해 결합된 Dirichlet 평활화 클래스 사전분포 (Dirichlet-smoothed class priors) 와 Beta 평활화 조건부 가능도 (Beta-smoothed condition likelihoods) 를 사용하여 규칙 통계를 추정하며, 반복적인 데이터셋 스캔을 피합니다. 33 개 벤치마크 데이터셋에 대한 실험 결과, RCProb 는 RuleCOSI+ 에 비해 평균적으로 더 컴팩트한 규칙 세트를 생성하면서도 약 $22\times$ 의 런타임 감소를 유지하면서 경쟁력 있는 예측 성능을 유지함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

RCProb: 트리 앙상블의 효율적 단순화를 위한 확률론적 규칙 추출

요약

핵심 포인트

댓글