신뢰할 수 있는 멀티모달 융합을 위한 기하학 기반 슈뢰딩거 브리지 (Schrödinger Bridges)
요약
기존의 예측 확신도에 의존하는 방식의 순환 의존성 문제를 해결하기 위해 기하학 기반 멀티모달 융합(GMF)을 제안합니다. 잠재 공간 내 운송 교정량을 측정하여 데이터의 신뢰성을 독립적으로 평가하며, Rectified Flow를 통해 노이즈와 상충하는 데이터에 대한 강건성을 높였습니다.
핵심 포인트
- 예측 확신도 대신 잠재 공간의 운송 교정량으로 신뢰성 평가
- Rectified Flow를 활용한 확산 슈뢰딩거 브리지 구현
- 노이즈 및 의미론적 충돌 데이터에 대한 높은 강건성 입증
- 분류기 오류와 독립적으로 작동하는 신뢰성 판사 역할 수행
실제 세계의 멀티모달 (Multimodal) 시스템은 센서 노이즈 (Sensor noise), 불완전한 멀티모달 데이터, 그리고 상충하는 입력값과 같은 저품질 데이터에 대해 강건성 (Robustness)을 갖추어야 합니다. 그러나 기존의 신뢰할 수 있는 융합 (Trustworthy fusion) 방법들은 데이터 품질을 판단하기 위해 모델 자체의 예측 확신도 (Prediction confidence)에 의존합니다. 이는 순환 의존성 (Circular dependency)을 생성합니다. 즉, 모델이 확신을 가지고 있지만 틀린 예측을 할 경우, 이러한 방법들은 오류를 감지하는 데 실패합니다. 이 루프를 끊기 위해, 우리는 기하학 기반 멀티모달 융합 (Geometry-based Multimodal Fusion, GMF)을 제안합니다. 우리는 예측에 의존하는 대신, 잠재 공간 (Latent space)에서 입력값이 얼마나 많은 운송 교정 (Transport correction)을 필요로 하는지를 측정하여 신뢰성을 평가합니다. 우리는 Rectified Flow를 사용하여 확산 슈뢰딩거 브리지 (Diffusion Schrödinger Bridge) 운송을 구현하며, 여기서 초기 속도의 제곱은 효율적인 학습된 교정 점수 (Correction score)를 제공합니다. 유효한 데이터는 낮은 제곱 속도 크기를 갖는 반면, 노이즈가 있거나 불완전한 데이터 또는 상충하는 데이터는 더 강력한 운송 교정을 필요로 합니다. 이러한 기하학 기반의 신뢰성 신호는 독립적인 판사 역할을 하여, 분류기 (Classifier)가 속더라도 신뢰할 수 없는 입력을 효과적으로 표시합니다. 광범위한 실험을 통해 GMF가 확신도 기반의 베이스라인 (Baselines)과 비교했을 때 심각한 센서 노이즈 및 의미론적 충돌 (Semantic conflicts)에 대한 강건성을 크게 향상시킨다는 것을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기