MNAR-$k$-means: 크기가 감소하는 확률을 가진 비무작위 결측(MNAR) 데이터를 위한 $k$-means 클러스터링

모든 데이터 특징(feature)으로부터 계산된 거리에 기반하는 고전적인 $k$-means 클러스터링은 결측값이 있는 불완전한 데이터에 직접 적용될 수 없습니다. 결측 데이터에 대한 $k$-means의 자연스러운 확장 방식은 클러스터링에 관측된 위치만을 포함하는 것이며, 이는 결측값을 해당 클러스터 평균으로 대체(imputing)하는 것과 동일합니다. 그러나 비무작위 결측 (MNAR, Missing Not At Random)의 경우, 결측 여부가 데이터 값과 관련이 있기 때문에, 이러한 평균 대체 기반 방식은 추정된 클러스터 중심의 왜곡을 초래하여 좋지 않은 클러스터링 결과를 낳을 수 있습니다. MNAR 메커니즘은 현실에서 매우 흔하기 때문에, 이러한 데이터를 위한 $k$-means 기반 클러스터링 방법의 성능을 개선할 필요가 있습니다. 본 논문에서는 데이터의 절대값이 작을수록 결측될 가능성이 더 높은 크기 감소형 (magnitude-decaying) MNAR 시나리오에 초점을 맞추며, 수학적 해석이 용이한 대체값 크기 제약 조건에 기반한 새로운 $k$-means 클러스터링 방법을 제안합니다. 또한, 제안된 방법의 추정된 클러스터 중심이 완전 관측 데이터의 실제 클러스터 중심과 통계적 일치성 (statistical consistency)을 가짐을 입증하고, 교대 최소화 (alternative minimization) 알고리즘을 통해 제안된 손실 함수 (loss function)의 최적화를 해결합니다. 시뮬레이션 실험을 통해 클러스터링 결과를 개선하고 추정된 클러스터 중심의 편향 (bias)을 줄이는 제안된 방법의 효과를 검증합니다. 실제 결측 데이터에 대한 적용을 통해 제안된 방법의 유용성을 추가로 보여줍니다.

Insights

MNAR-$k$-means: 크기가 감소하는 확률을 가진 비무작위 결측(MNAR) 데이터를 위한 $k$-means 클러스터링

요약

핵심 포인트

댓글

이번 분기에 AI가 현실적으로 대신 처리해 줄 수 있는 반복적인 행정 업무는 무엇인가?

Claude Sonnet 5가 동아프리카 AI 인프라에 의미하는 것

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Claude Sonnet 5가 동아프리카 AI 인프라에 의미하는 것

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유