멀티모달 학습에서의 누락된 양식(Missing Modalities)을 위한 비지도 학습
요약
멀티모달 학습 시 특정 데이터(양식)가 누락되었을 때 이를 비지도 학습 방식으로 보충하는 UL4M4 프레임워크를 제안합니다. 양식별 정규화와 새로운 거리 메트릭을 통해 불완전한 데이터에서도 안정적인 클러스터링과 임베딩 보충이 가능합니다.
핵심 포인트
- 누락된 양식을 보충하는 유연한 비지도 학습 프레임워크 UL4M4 제안
- 양식별 정규화 및 부분 양식 거리 메트릭을 통한 교차 양식 구조 포착
- 동결된 인코더를 사용하는 경량화된 보충 모듈로 다양한 아키텍처와 통합 가능
- 양식의 50% 이상이 누락된 극한 상황에서도 높은 F1-Micro 점수 달성
본 논문은 지도 학습 기반의 예측(supervised prediction)을 수행하기 전, 태스크 독립적인 방식으로 누락된 특징 임베딩(feature embeddings)을 보충하는 유연한 프레임워크인 '멀티모달 학습에서의 누락된 양식을 위한 비지도 학습 (Unsupervised Learning for Missing Modalities in Multi-Modal Learning, UL4M4)'을 도입함으로써 멀티모달 학습(multi-modal learning)에서의 누락된 양식(missing-modality) 문제를 다룹니다. 우리는 불완전한 관측값의 공정한 클러스터링(clustering)을 가능하게 하기 위해 양식별 정규화(modality-specific normalization)와 새로운 부분 양식 거리 메트릭(partial-modality distance metric)을 제안하며, 이를 통해 다양한 차원(dimensionality)과 양식 수(modality counts)에 걸쳐 스케일 불변성(scale-invariance)을 유지하면서 교차 양식 구조(cross-modal structures)를 포착합니다. 이 비지도 단계에서 얻은 클러스터 중심(Cluster centers)은 훈련 또는 추론 과정 중 발생하는 임의의 누락된 양식에 대해 반복적인 탐욕적 보충(iterative greedy imputation) 프로세스를 안내하며, 임의의 양식 수와 샘플당 임의의 누락 패턴을 지원합니다. 보충 모듈(imputation module)은 경량화되어 있으며, 동결된 인코더(frozen encoders)를 사용하고 다운스트림 태스크(downstream task)와 분리되어 있어, 어떠한 융합/예측(fusion/prediction) 아키텍처와도 쉽게 통합될 수 있습니다. 다양하고 매우 불완전한 환경에서의 광범위한 실험을 통해 UL4M4의 견고함(robustness)을 입증하였으며, 우리가 아는 바로는 양식 슬롯의 50% 이상이 누락된 도전적인 누락 구성에서도 F1-Micro 점수가 0.7 이상을 일관되게 달성한 첫 사례입니다. 결과 또한 클러스터 크기에 따라 안정적이며 최신 베이스라인(state-of-the-art baselines)들을 유의미하게 능가합니다. 코드는 여기에서 확인할 수 있습니다: https://github.com/h-ismkhan/Multimodal-Learning-with-Missing-Modalities-via-Unsupervised-Learning.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기