계층적 분류를 위한 동시 잠재 예산 트리 (Simultaneous Latent Budget Trees)
요약
계층화 요인이 존재하는 상황에서 분류 트리의 해석력을 높이기 위한 확률적 머신러닝 프레임워크인 SLBT를 제안합니다. 동시 혼합 모델을 기반으로 분할 규칙을 최적화하며, 신경망 관점의 파라미터 추정과 시각적 도구를 제공합니다.
핵심 포인트
- 계층화 요인을 고려한 확률적 분류 트리 프레임워크 SLBT 제안
- 동시 혼합 모델을 활용한 모델 기반 분할 규칙 설계
- 최소제곱법을 통한 신경망 관점의 파라미터 추정 방식 적용
- 시각적 가지치기 및 대화형 시각화 도구 제공
- ALS 질병 진행 연구 및 GitHub 라이브러리 공개
설명 가능한 인공지능 (Explainable Artificial Intelligence) 시대에, 해석의 용이성 덕분에 단일 트리 (single trees)에 대한 관심이 다시 높아지고 있습니다. 본 논문은 시간적, 공간적 또는 인구 통계적 변수와 같이 통제 변수(control variable) 또는 잠재적 교란 요인(potential confounder)으로 작용하는 계층화 요인 (stratification factor)이 존재하는 상황에서의 분류 트리 (classification trees)를 위한 확률적 머신러닝 프레임워크인 동시 잠재 예산 트리 (Simultaneous Latent Budget Trees, SLBT)를 소개합니다. 표준적인 트리 성장 절차는 조건부 분할 규칙 (conditional split rule)을 최적화하도록 설계되지 않았습니다. 이에 본 논문에서는 자식 노드 (child nodes)를 부모 노드 (parent node)에 적합된 동시 혼합 모델 (simultaneous mixture model), 즉 동시 잠재 예산 모델 (Simultaneous Latent Budget Model) 및 그 제약된 버전들의 잠재 구성 요소 (latent components)로 해석하는 모델 기반 분할 규칙을 제안합니다. 혼합 파라미터 (mixing parameters)는 각 그룹에 대해 서로 다르게 관측치 (observations)를 자식 노드로 유도하는 반면, 잠재 예산 파라미터 (latent budgets parameters)는 통제 변수의 각 수준에 따른 반응 클래스 프로필 (response classes profile)을 업데이트합니다. 파라미터는 모델의 신경망 (neural network) 관점을 고려하여 최소제곱법 (least squares)을 통해 추정됩니다. 정보가 풍부한 트리 구조는 시각적 가지치기 (visual pruning) 및 의사결정 트리 선택 절차를 포함하여, 노드와 경로에 대한 해석 보조 도구와 함께 대화형으로 시각화될 수 있습니다. 불균형한 반응 클래스 분포 (unbalanced response class distribution)를 처리하기 위한 적절한 측정 지표들도 제안됩니다. 제안된 방법론은 근위축성 측삭 경화증 (Amyotrophic Lateral Sclerosis)의 질병 진행에서 성별 관련 차이를 조사하는 데 적용되었습니다. 다양한 트리 기반 알고리즘을 포함한 SLBT 라이브러리는 연결된 GitHub 저장소에서 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기