MNAR-$k$-means: 크기가 감소하는 확률을 가진 비무작위 결측(MNAR) 데이터를 위한 $k$-means 클러스터링
요약
비무작위 결측(MNAR) 데이터 환경에서 기존 k-means 클러스터링의 왜곡 문제를 해결하기 위한 새로운 알고리즘을 제안합니다. 데이터 값이 작을수록 결측 확률이 높아지는 시나리오를 가정하여, 통계적 일치성을 보장하는 새로운 손실 함수와 최적화 방법을 제시합니다.
핵심 포인트
- MNAR 데이터의 특성을 반영한 새로운 k-means 클러스터링 방법론 제안
- 데이터 크기 감소형(magnitude-decaying) MNAR 시나리오에 특화
- 추정된 클러스터 중심의 통계적 일치성(statistical consistency) 입증
- 교대 최소화(alternative minimization) 알고리즘을 통한 최적화 해결
- 시뮬레이션 및 실제 데이터를 통해 편향 감소 효과 검증
모든 데이터 특징(feature)으로부터 계산된 거리에 기반하는 고전적인 $k$-means 클러스터링은 결측값이 있는 불완전한 데이터에 직접 적용될 수 없습니다. 결측 데이터에 대한 $k$-means의 자연스러운 확장 방식은 클러스터링에 관측된 위치만을 포함하는 것이며, 이는 결측값을 해당 클러스터 평균으로 대체(imputing)하는 것과 동일합니다. 그러나 비무작위 결측 (MNAR, Missing Not At Random)의 경우, 결측 여부가 데이터 값과 관련이 있기 때문에, 이러한 평균 대체 기반 방식은 추정된 클러스터 중심의 왜곡을 초래하여 좋지 않은 클러스터링 결과를 낳을 수 있습니다. MNAR 메커니즘은 현실에서 매우 흔하기 때문에, 이러한 데이터를 위한 $k$-means 기반 클러스터링 방법의 성능을 개선할 필요가 있습니다. 본 논문에서는 데이터의 절대값이 작을수록 결측될 가능성이 더 높은 크기 감소형 (magnitude-decaying) MNAR 시나리오에 초점을 맞추며, 수학적 해석이 용이한 대체값 크기 제약 조건에 기반한 새로운 $k$-means 클러스터링 방법을 제안합니다. 또한, 제안된 방법의 추정된 클러스터 중심이 완전 관측 데이터의 실제 클러스터 중심과 통계적 일치성 (statistical consistency)을 가짐을 입증하고, 교대 최소화 (alternative minimization) 알고리즘을 통해 제안된 손실 함수 (loss function)의 최적화를 해결합니다. 시뮬레이션 실험을 통해 클러스터링 결과를 개선하고 추정된 클러스터 중심의 편향 (bias)을 줄이는 제안된 방법의 효과를 검증합니다. 실제 결측 데이터에 대한 적용을 통해 제안된 방법의 유용성을 추가로 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기