SAGE: 사기 탐지에서 신뢰할 수 있는 부정 사례 수집을 위한 확장 가능한 자동 게이팅 앙상블
요약
음악 스트리밍 사기 탐지 시 정당한 사용자 패턴과 사기 패턴을 구분하기 어려운 문제를 해결하기 위해 SAGE 프레임워크를 제안합니다. SimHash 기반의 층화 추출과 모듈형 게이팅 앙상블을 결합하여 라벨이 없는 데이터로부터 신뢰할 수 있는 부정 사례를 자동으로 수집합니다. 이를 통해 Positive-Unlabeled 학습 시 발생하는 표현 편향을 줄이고 높은 정밀도와 재현율을 달성했습니다.
핵심 포인트
- SimHash 기반 층화 추출과 모듈형 게이팅 앙상블을 결합한 SAGE 방식 제안
- 통계적 게이트(Mahalanobis distance, k-NN density)를 통한 적응형 정밀도-재현율 트레이드오프 구현
- 하한선이 제한된 샘플링을 통해 희귀 행동 집단에 대한 커버리지를 확보하고 표현 편향 문제 해결
- 음악 스트리밍 외 다양한 사기 탐지 도메인으로의 일반화 가능성 입증
악의적인 행위자들이 차트 순위와 로열티 지급을 조작하기 위해 스트리밍 횟수를 인위적으로 부풀리는 음악 스트리밍 사기는 스트리밍 서비스와 정당한 콘텐츠 제작자들에게 큰 위협이 되고 있습니다. 전통적인 사기 탐지 (Fraud detection) 방식은 중요한 과제에 직면해 있습니다. 즉, 슈퍼 팬(super-fans)이나 수면용 음악 재생 세션과 같은 많은 정당한 예외 사례들이 조직적인 사기 행위와 매우 유사한 활동 패턴을 보인다는 점입니다. 본 논문에서는 라벨이 없는 데이터 (unlabeled data)로부터 신뢰할 수 있는 부정 사례 (negative)를 식별하기 위해, SimHash 기반의 층화 추출 (stratified sampling)과 모듈형 게이팅 앙상블 (gating ensemble)을 결합한 새로운 반사실적 인지 부정 사례 수집 (counterfactual-aware negative harvesting) 방식인 SAGE를 제안합니다. 우리의 앙상블 아키텍처는 플러그인 방식의 통계적 게이트 (현재 Mahalanobis distance 및 k-NN density로 구현됨)를 채택하며, 구성 가능한 투표 임계값 (voting thresholds)을 통해 적응형 정밀도-재현율 (precision-recall) 트레이드오프를 가능하게 합니다. 이는 하한선이 제한된 샘플링 (floor-constrained sampling)을 통해 희귀한 행동 집단 (behavioral cohorts)에 대한 포괄적인 커버리지를 보장함으로써, 양의 데이터-미라벨 데이터 학습 (Positive-Unlabeled learning)에서의 표현 편향 (representation bias) 문제를 해결합니다. 평가 결과, 홀드아웃 데이터 (held-out data)에서 강력한 정밀도 (precision)와 재현율 (recall)을 입증하였습니다. 이 방식은 핵심 방법론의 수정 없이도 고객 수준 및 아티스트 수준의 사기 모두에서 강력한 성능을 달성하며, 사기 탐지 도메인 전반에 걸쳐 일반화될 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기