PRISM: 모달리티 결핍 상황을 위한 위상 인식 교차 모달리티 임퓨테이션 (Topology-Aware Cross-Modal
요약
PRISM은 멀티모달 연합 그래프 학습 시 발생하는 클라이언트별 모달리티 결핍 문제를 해결하기 위한 새로운 프레임워크입니다. 구조적 메타 프롬프팅을 통해 누락된 모달리티의 시맨틱을 복구하고 위상 인식을 통해 그래프 전파를 제어하여 성능을 향상시킵니다.
핵심 포인트
- 클라이언트 수준의 모달리티 결핍 문제 정의
- 위상 인식 제어를 통한 임퓨테이션 오류 증폭 방지
- 연합 학습 기반의 누락된 모달리티 시맨틱 복구
- SOTA 대비 평균 4.48% 성능 향상 입증
멀티모달 연합 그래프 학습 (Multimodal Federated Graph Learning, MM-FGL)은 텍스트와 이미지를 포함하는 분산된 그래프로부터 협력적으로 학습하는 것을 목표로 합니다. 그러나 실제 환경의 클라이언트들은 공통된 모달리티 기반을 공유하지 않을 수 있습니다. 예를 들어, 시각적 검색 (visual-search) 클라이언트는 이미지-상호작용 (image--interaction) 그래프를 포함하지만 판매자 설명은 없을 수 있으며, 카탈로그 클라이언트는 텍스트는 제공하지만 제품 이미지는 없을 수 있습니다. 우리는 이러한 실질적인 설정을 클라이언트 수준의 모달리티 결핍 (client-level modality deficiency)이라고 부릅니다. 무작위적인 인스턴스 단위의 결측 (instance-wise missingness)과 달리, 결핍된 클라이언트는 부재하는 모달리티를 재구성하는 데 필요한 로컬 시맨틱 기반 (local semantic basis)이 부족합니다. 더 중요한 점은, 그래프 학습에서 불완전한 표현 (incomplete representations)은 메시지 패싱 (message passing)을 초기화하므로, 임퓨테이션 (imputation) 오류가 수신 측의 위상 (topology)에 의해 필터링되거나 혼합되어 증폭될 수 있다는 것입니다. 이러한 격차를 해결하기 위해, 우리는 위상 인식 연합 교차 모달리티 임퓨테이션 프레임워크인 extbf{PRISM} ( extbf{P}roactive extbf{R}etrieval and extbf{I}mputation via extbf{S}tructural extbf{M}eta-prompting)을 제안합니다. PRISM은 누락된 모달리티를 단순히 로컬 관찰값으로부터만 재구성하는 대신, 연합 (federation)으로부터 누락된 모달리티의 시맨틱을 복구하고 이를 위상 인식 제어 (topology-aware control) 하에 로컬 그래프 전파 (graph propagation)에 도입합니다. 그래프 중심 및 모달리티 중심 태스크에 걸친 6개의 멀티모달 그래프 데이터셋에 대한 실험 결과, PRISM은 모달리티가 결핍된 클라이언트의 성능을 일관되게 향상시켰으며, 최신 베이스라인 (state-of-the-art baselines) 대비 평균 extbf{4.48} ext{ extperthousand} 성능을 상회함을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기