arXiv논문2026. 06. 18. 11:46

tSeTlin machine을 이용한 목표 신뢰도 기반 구제: TRUST

요약

tSeTlin machine을 활용하여 사용자가 지정한 목표 신뢰도를 충족하는 알고리즘적 구제 프레임워크인 TRUST를 제안합니다. 기존의 경계 기반 방식과 달리, 결정의 강건성을 보장하기 위해 신뢰도를 직접 제어하며 최적의 반사실적 설명을 탐색합니다.

핵심 포인트

사용자가 원하는 예측 신뢰도를 명시적으로 지정 가능
Probabilistic Tsetlin Machine(PTM)을 통한 신뢰도와 규칙 안정성 연결
기존 방식 대비 노이즈와 모델 변동에 강건한 구제 옵션 제공
비용, 신뢰도, 강건성 측면에서 최적화된 반사실적 설명 생성

반사실적 설명 (Counterfactual explanations)은 중대한 의사결정 시스템에서 알고리즘적 구제 (algorithmic recourse)를 제공하기 위해 널리 사용됩니다. 대부분의 기존 방법들은 모델의 결정을 뒤집는 입력값의 최소한의 변화를 찾고자 합니다. 그러나 의사결정자들은 예측된 레이블뿐만 아니라 신뢰도 임계값 (confidence thresholds) 및 리스크 마진 (risk margins)에도 의존하는 경우가 많습니다. 결정 경계 (decision boundary)를 간신히 넘는 반사실적 설명은 노이즈나 모델 변동 하에서 취약하고 불안정할 수 있습니다. 본 논문에서는 사용자가 구제를 위해 원하는 예측 신뢰도를 명시적으로 지정하는 프레임워크인 tSeTlin machine을 이용한 목표 신뢰도 기반 구제 (Target-confidence Recourse Using tSeTlin machines, TRUST)를 제안합니다. TRUST는 반사실적 설명을 생성한 후 신뢰도를 평가하는 대신, 사용자가 정의한 신뢰도 목표를 충족하는 최소한의 변화를 직접 탐색하여 비용, 신뢰도 및 강건성 (robustness) 측면에서 구제 옵션을 비교할 수 있게 합니다. 우리는 베이지안 최적화 (Bayesian optimization)와 결합된 확률적 Tsetlin Machine (Probabilistic Tsetlin Machine, PTM)을 사용하여 TRUST를 구현합니다. PTM의 확률적 절 (clause) 기반 구조는 예측 신뢰도를 의사결정 규칙의 안정성과 연결합니다. 우리는 동일한 규칙을 충족하는 반사실적 설명이라 하더라도, 해당 규칙을 얼마나 확실하게 충족하느냐에 따라 신뢰성에서 상당한 차이가 날 수 있음을 보여주며, 이를 통해 결정이 강건한 절 활성화 (clause activations)에 의해 지원되는지 아니면 취약한지에 따라 달라짐을 밝혀냅니다. 합성 데이터 및 실제 데이터셋에 대한 실험을 통해, 목표 신뢰도 기반 반사실적 설명이 기존의 경계 기반 접근 방식보다 더 강건하고 해석 가능한 구제를 생성함을 입증합니다. 여러 벤치마크에 걸쳐 TRUST는 낮은 구제 비용을 유지하면서도 완벽한 강건성을 달성하였으며, Haberman 데이터셋에서 0.92의 신뢰도에서 0.10의 L2 거리를 기록했습니다. 신뢰도를 명시적으로 제어하고 규칙 수준의 안정성을 노출함으로써, TRUST는 중대한 의사결정 지원을 위한 실행 가능한 구제를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

tSeTlin machine을 이용한 목표 신뢰도 기반 구제: TRUST

요약

핵심 포인트

댓글