arXiv논문2026. 06. 18. 11:46

A-Contrario 이상 탐지를 이용한 시드 가이드 기반 준지도 클러스터링 (Seed-Guided Semi-Supervised

요약

A-Contrario 이상 탐지 원리를 활용하여 노이즈에 강건한 준지도 클러스터링 프레임워크를 제안합니다. 최소한의 시드 레이블을 통해 이상치를 배제하며 클러스터를 확장하는 방식으로, 파라미터 튜닝 없이도 높은 성능과 선형 확장성을 보여줍니다.

핵심 포인트

이상 탐지와 클러스터링의 통계적 이중성 활용
A-Contrario 추론을 통한 자동 임계값 설정 및 노이즈 제거
최소한의 시드(10~30개)로 강건한 클러스터 형성 가능
데이터 차원 및 관측치 수에 대해 선형 확장성 유지

본 논문은 그룹화 원리와 이상 탐지 (Anomaly Detection) 사이의 통계적 이중성 (Duality)에 기반한 준지도 클러스터링 (Semi-supervised Clustering) 프레임워크를 소개합니다. 우리는 노이즈가 많은 환경에서 강건한 클러스터 정의를 내리는 과제를 다룹니다. 이는 분할 알고리즘 (Partitioning algorithms)이 이상치 (Outliers)를 과도하게 할당하거나, 밀도 기반 방식 (Density-based methods)이 휴리스틱한 전역 파라미터 (Global parameters)에 민감하게 반응하는 문제와 관련이 있습니다. extit{a-contrario} 통계적 추론과 게슈탈트 근접성 원리 (Gestalt proximity principles)를 활용하여, 우리는 클러스터를 균일한 무작위성 (Uniform randomness)이라는 귀무 가설 (Null hypothesis)에 대해 이상치가 포함되지 않은 데이터 포인트의 최대 부분 집합으로 정의합니다. 이 접근 방식의 핵심은 Perception 알고리즘으로, 이는 수동적인 파라미터 튜닝 없이 이상치를 식별하기 위해 원칙적인 기대값 기반 임계값 ($\mathbb{E} < 1$)을 사용합니다. 클러스터링을 이상 탐지의 쌍대 (Dual) 관계로 취급함으로써, 우리는 반복적인 "배제를 통한 클러스터링 (Clustering-by-exclusion)" 메커니즘을 채택합니다. 이 알고리즘은 시드 가이드 (Seed-guided) 방식으로, 사용자가 제공한 최소한의 레이블을 활용하여 강건한 클러스터 중앙값 (Cluster medians)을 초기화하고 초기 그룹을 형성하며, 이후 이상치가 아닌 포인트들을 수용함으로써 그룹을 확장합니다. 이러한 접근 방식은 주변부 포인트 (Fringe points), 고립된 노이즈, 그리고 새롭게 나타나는 미지의 클러스터를 자연스럽게 분리합니다. 우리는 원본, 선형 축소 (Linear-reduced), 그리고 이웃 보존 임베딩 (Neighbourhood-preserving embeddings)을 통해 표현된 이미지 및 텍스트 데이터셋을 포함한 합성 및 실제 벤치마크에서 이 방법을 평가합니다. 결과에 따르면, 클러스터당 단 10~30개의 시드만으로도 제안된 방법은 실용적인 저튜닝 (Low-tuning) 벤치마킹 프로토콜 하에서 경쟁력 있고 종종 매우 강력한 성능을 달성하며, 고정된 시드 클러스터 수와 반복 횟수에 대해 관측치와 차원 모두에 대해 선형 확장성 (Linear scalability)을 유지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

A-Contrario 이상 탐지를 이용한 시드 가이드 기반 준지도 클러스터링 (Seed-Guided Semi-Supervised

요약

핵심 포인트

댓글