본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 16:37

RCProb: 트리 앙상블의 효율적 단순화를 위한 확률론적 규칙 추출

요약

본 논문은 복잡한 트리 앙상블 모델의 해석 가능성 문제를 해결하기 위해, 결정 규칙(decision rules)을 추출하는 새로운 확률론적 방법을 제안합니다. 기존 방법인 RuleCOSI+는 정확하지만 대규모 데이터셋에서 계산 비용이 높다는 단점이 있었습니다. 따라서 RCProb은 Dirichlet 및 Beta 평활화를 사용하여 반복적인 데이터 스캔 없이 효율적으로 규칙 통계를 추정함으로써, 컴팩트한 규칙 세트를 유지하면서도 런타임 속도를 크게 개선했습니다.

핵심 포인트

  • 트리 앙상블 모델의 해석 가능성(XAI) 확보가 중요하며, 결정 규칙 추출이 효과적인 방법이다.
  • 기존 RuleCOSI+는 계산 비용 문제로 인해 대규모 데이터셋 적용에 한계가 있었다.
  • RCProb은 Dirichlet 및 Beta 평활화를 활용하여 반복적인 데이터 스캔을 피하고 효율성을 높였다.
  • 실험 결과, RCProb은 기존 방식 대비 런타임 속도를 크게 개선하면서도 컴팩트한 규칙 세트를 생성하고 경쟁력 있는 예측 성능을 유지했다.

트리 앙상블 (Tree ensembles) 은 강력한 예측 성능과 효율적인 학습 절차로 인해 산업용 머신러닝에서 널리 사용되고 있습니다. 그러나 앙상블 내 트리의 수가 증가함에 따라, 생성된 모델은 인간이 해석하기 점점 더 어려워집니다. 이 한계를 해결하기 위해, 설명 가능한 인공지능 (XAI) 은 복잡한 예측기를 설명할 수 있는 가해 가능한 모델을 생성하는 방법을 연구합니다. 하나의 접근법은 원래 모델의 예측 성능을 유지하면서 트리 앙상블에서 결정 규칙 (decision rules) 을 추출하는 것입니다. 이전 작업에서 우리는 트리 앙상블에서 컴팩트한 규칙 기반 모델을 추출하기 위한 탐욕적 휴리스틱 알고리즘인 RuleCOSI+ 를 소개했습니다. RuleCOSI+ 는 정확하고 가해 가능한 규칙 세트를 생성하지만, 규칙 신뢰도를 추정하기 위해 학습 데이터에 대한 반복적인 경험적 빈도 계수 (empirical frequency counting) 에 의존하여, 대규모 데이터셋의 경우 계산 비용이 많이 듭니다. 본 논문에서는 규칙 추출의 계산 비용을 줄이기 위한 RuleCOSI+ 의 확률론적 재구형인 RCProb 를 제안합니다. RCProb 는 Naive Bayes 형식을 통해 결합된 Dirichlet 평활화 클래스 사전분포 (Dirichlet-smoothed class priors) 와 Beta 평활화 조건부 가능도 (Beta-smoothed condition likelihoods) 를 사용하여 규칙 통계를 추정하며, 반복적인 데이터셋 스캔을 피합니다. 33 개 벤치마크 데이터셋에 대한 실험 결과, RCProb 는 RuleCOSI+ 에 비해 평균적으로 더 컴팩트한 규칙 세트를 생성하면서도 약 $22\times$ 의 런타임 감소를 유지하면서 경쟁력 있는 예측 성능을 유지함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0