본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 11:28

국소적으로 적응 가능한 불확실성 영역을 갖춘 삼진 결정 트리 (Ternary Decision Trees with Locally-Adaptive

요약

기존 이진 결정 트리의 한계를 극복하기 위해 불확실성 영역을 도입한 삼진 결정 트리(Ternary Decision Trees)를 제안합니다. 각 노드에서 국소적으로 계산된 불확실성 영역을 통해 경계 근처의 데이터를 가중 혼합 예측하며, 실험 결과 표준 CART보다 높은 정확도를 보였습니다.

핵심 포인트

  • 결정 경계에 불확실성 영역(uncertainty zone)을 도입한 삼진 결정 트리 제안
  • 외부 노이즈 지정 없이 노드별 통계치를 활용한 국소적 $\delta$ 계산
  • 마진(margin) 방법이 추가 하이퍼파라미터 없이 가장 높은 효율성 달성
  • 72개 OpenML 데이터셋 실험에서 표준 CART 대비 유의미한 정확도 향상 입증

결정 트리 (Decision trees)는 엄격한 이진 임계값 (hard binary thresholds)을 사용하여 특징 공간 (feature space)을 분할하며, 결정 경계 (decision boundary)에서 멀리 떨어진 인스턴스와 경계 바로 위에 있는 인스턴스에 동일한 신뢰도를 할당합니다. 본 연구에서는 각 분할 노드 (split node)에 최적 임계값 (optimal threshold)을 중심으로 반폭 (half-width) $\delta$를 갖는 불확실성 영역 (uncertainty zone)을 추가한 삼진 결정 트리 (ternary decision trees)를 소개합니다. 이 영역에 속하는 인스턴스는 두 자식 서브트리 (child subtrees)의 가중치 혼합 (weighted blending)으로 형성된 예측을 받으며, 경계 불확실 (boundary-uncertain) 상태로 표시되어 하위 애플리케이션이 이러한 예측을 다르게 처리할 수 있음을 알립니다. 결정적으로, $\delta$는 표준 CART 분할 탐색 (split finding) 중에 이미 사용 가능한 통계치를 통해 각 노드에서 국소적으로 계산되므로, 외부의 노이즈 지정 (noise specification)이 필요하지 않습니다. 우리는 다섯 가지 $\delta$ 추정 방법을 제안하고 평가합니다: 품질 고원 (quality-plateau, 분할 기준 곡선의 고원 폭), 클래스 중첩 (class-overlap, 경험적 클래스 분포 중첩), 이득비 (gain-ratio, 분할 엔트로피 대비 분할 품질), 노드 부트스트랩 (node-bootstrap, 노드 수준 재표본 추출 하의 임계값 분산), 그리고 마진 (margin, SVM에서 영감을 얻은 가장 가까운 클래스 간 훈련 예시까지의 거리). 72개의 OpenML-CC18 데이터셋에 대해 5-겹 교차 검증 (5-fold cross-validation)을 통해 평가한 결과, 확률적 라우팅 (probabilistic routing)을 적용한 다섯 가지 방법 모두 결정 정확도 (decided accuracy) 측면에서 표준 CART를 유의미하게 능가했습니다 (Wilcoxon 부호 순위 검정, p < 0.001). 마진 (margin) 방법은 최고의 효율성 (경계 불확실 플래깅 비율 단위당 0.104 정확도 이득)을 달성하였고, 72개 데이터셋 중 42개에서 승리했으며, 추가적인 하이퍼파라미터 (hyperparameters)가 전혀 필요하지 않았습니다. 세 가지 Breiman 합성 벤치마크에 대한 분석 결과, 마진 (margin)은 깨끗한 데이터에서 자기 교정 (self-calibrating)되는 반면, 노드 부트스트랩 (node-bootstrap)과 품질 고원 (quality-plateau)은 이론적인 기약 오차 (irreducible error)를 가장 잘 추적하는 것으로 나타났습니다. 네 가지 의료 및 금융 데이터셋에 대한 실험은 실질적인 가치를 입증합니다: 유방 촬영술 (mammography) 데이터셋에서 노드 부트스트랩 (node-bootstrap)은 스크리닝 사례의 10.8%를 경계 불확실으로 표시함으로써 +0.71%의 결정 정확도를 달성했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0