무엇을 결측치로 처리하지 않을 것인가 학습하기: 의미 있는 결측(Meaningful Missingness)을 위한 불확실성 인식 확산
요약
결측치가 발생하는 두 가지 원인을 구분하여 처리하는 Diff-Joint 프레임워크를 제안합니다. 확산 모델을 활용해 의미 있는 결측과 보간이 필요한 결측을 동시에 추론하여 데이터의 정확도를 높입니다.
핵심 포인트
- 의미 있는 결측과 단순 누락을 구분하는 선택적 보간 문제 정의
- 확산 기반 프레임워크 Diff-Joint를 통한 공동 모델링 제안
- 조건부 샘플링과 불확실성 인식 집계를 통한 반복적 정교화
- 정형 데이터에서 보간 정확도 및 다운스트림 성능 향상 입증
결측치 보간 (Missing value imputation)은 머신러닝 (Machine learning)의 근본적인 과제이며, 기존의 대부분 방법론은 모든 결측 항목이 관찰되지 않은 일반적인 값에 해당한다고 가정합니다. 그러나 많은 실제 데이터셋에서 결측 (Missingness)은 두 가지 뚜렷한 원인에서 발생할 수 있습니다. 즉, 일부 항목은 의미 있게 결측되어 있으며 (의도적으로 부재하며 의미론적으로 유효함), 다른 항목들은 관찰 과정으로 인해 누락되어 보간 (Impute)되어야 합니다. 우리는 이러한 구분을 선택적 보간 (Selective imputation) 문제로 공식화하며, 여기서 목표는 어떤 결측 항목을 보존해야 하고 어떤 항목을 복구해야 하는지를 공동으로 추론하는 것입니다. 이 과제를 해결하기 위해, 우리는 정형 데이터 (Tabular data)와 잠재 결측 마스크 (Latent missingness mask)를 함께 공동 모델링하는 확산 기반 (Diffusion-based) 프레임워크인 Diff-Joint를 제안합니다. 이 방법은 조건부 샘플링 (Conditional sampling)과 불확실성 인식 집계 (Uncertainty-aware aggregation)를 교대로 수행하여 보간된 값과 결측 라벨 (Missingness labels)을 반복적으로 정교화합니다. 합성 데이터 및 실제 데이터셋에 대한 실험 결과는 Diff-Joint가 경쟁력 있는 보간 정확도를 달성하고 다운스트림 태스크 (Downstream task) 성능을 향상시키는 동시에, 의미 있는 결측 항목을 효과적으로 식별함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기