본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 10:56

최적 운송 의미론적 흐름(Optimal Transport Semantic Flow)을 통한 시각 및 언어 개념의 연결

요약

시각 및 언어 개념의 정렬을 개선하기 위해 최적 운송 흐름(OTF-CBM)을 제안하는 연구입니다. 동적인 교차 모달 운송 과정을 통해 세밀한 개념 국지화를 구현하며, 기존 방식보다 높은 분류 정확도와 개념 충실도를 달성했습니다.

핵심 포인트

  • 정적 투영 대신 동적 교차 모달 운송 과정 도입
  • 역 최적 운송을 통한 데이터 기반 의미론적 비용 학습
  • 불균형 최적 운송 기반 흐름 매칭 활용
  • ODE 적분 없이 속도 기반 개념 활성화 구현
  • 우수한 분류 정확도 및 개념 충실도 입증

개념 병목 모델 (Concept Bottleneck Models, CBMs)은 인간이 해석 가능한 개념을 통해 예측함으로써 투명한 추론을 약속하지만, 그 효과는 시각적 및 텍스트 표현이 얼마나 잘 정렬되거나 일치하는지에 근본적으로 달려 있습니다. 기존의 시각-언어 CBM은 종종 사전 정렬된 인코더 (pre-aligned encoders) 또는 전역 코사인 유사도 (global cosine similarity)에 의존하며, 이는 세밀한 개념 국지화 (fine-grained concept localization)를 가리고 실제 의미론적 기하학 (semantic geometry)을 반영하지 못합니다. 본 연구에서는 개념 정렬을 정적인 투영 (static projection) 대신 동적인 교차 모달 운송 과정 (dynamic cross-modal transport process)으로 재고하고, 최적 운송 흐름 개념 병목 모델 (Optimal Transport Flow Concept Bottleneck Model, OTF-CBM)을 제안합니다. 이 모델은 먼저 역 최적 운송 (Inverse Optimal Transport)을 통해 교차 모달 거리를 측정하는 데이터 기반 의미론적 비용 (semantic cost)을 학습한 다음, 시각적 패치 (visual patches)와 텍스트 개념 사이의 의미론적 전이를 모델링하기 위해 불균형 최적 운송 기반 흐름 매칭 (unbalanced optimal-transport-based flow matching)을 수행합니다. 속도 기반 개념 활성화 (velocity-based concept activation)를 통해, OTF-CBM은 상미분 방정식 (ODE) 적분 없이도 해석 가능한 기하학적 관계를 포착합니다. 실험을 통해 OTF-CBM이 우수한 분류 정확도와 개념 충실도 (concept faithfulness)를 달성함을 보여주며, 해석 가능한 교차 모달 추론을 위한 새로운 기하학적 및 동역학적 관점을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0