arXiv논문2026. 06. 10. 11:11

Random Forests에 의해 측정된 변수 중요도(Variable Importance)의 교정

요약

Random Forests의 변수 중요도 계산 시 발생하는 상관관계로 인한 마스킹 문제를 해결하기 위한 새로운 교정 방법을 제안합니다. 조건부 상관관계에 따라 변수를 그룹화하여 변수 간 상관관계가 중요도 지수에 미치는 부정적인 영향을 방지합니다.

핵심 포인트

RF 변수 중요도의 상관관계로 인한 마스킹 문제 지적
조건부 상관관계 기반의 변수 그룹화 방식 제안
개별 그룹화 및 클러스터링 기반의 두 가지 효율적 옵션 제시
실험을 통해 변수 중요도의 합리적인 교정 효과 입증

Random Forests (RF)에 의해 생성된 변수 중요도 (Variable importance)은 통계적 데이터 분석에서 널리 사용되며, 모델 해석 (model interpretation) 보조, 모델 선택 (model selection) 및 진단 (diagnosis), 비용 제한 학습 (cost-bounded learning) 등 다양한 작업에서 중요한 역할을 해왔습니다. 그러나 RF에서의 변수 중요도 계산은 변수 간의 상관관계 (correlations)를 고려하지 않으며, 다른 많은 변수와 상관되어 있는 변수는 더 낮은 중요도 지수를 받거나 다른 강력하게 상관된 변수들에 의해 완전히 마스킹 (masking, 즉 중요도 지수가 0에 가까워짐)되는 경향이 있습니다. 변수 중요도를 계산할 때 원치 않는 상관 변수들로부터의 영향을 방지하기 위해, 우리는 조건부 상관관계 (conditional correlations, 반응 변수 (response variable)에 대한 조건부)에 따라 변수들을 그룹화할 것을 제안합니다. 우리는 계산 효율적인 두 가지 옵션을 탐색하는데, 하나는 변수들을 개별적으로 그룹화한 다음 관심 변수를 모든 상관 변수로부터 분리하는 방식이며, 다른 하나는 클러스터링 (clustering)을 사용하여 쌍별 조건부 상관관계 (pair-wise conditional correlations)에 따라 변수들을 그룹화하는 방식입니다. 우리의 실험은 두 방식 모두 변수의 중요도에 대해 합리적인 교정 (corrections)을 이끌어낸다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Random Forests에 의해 측정된 변수 중요도(Variable Importance)의 교정

요약

핵심 포인트

댓글