GRAMformer: 볼륨 기반 멀티모달 교차 주의 집중 (Volumetric Multimodal Cross-Attention)을 통한 임의
요약
GRAMformer는 기존 멀티모달 모델의 이차 복잡도 문제를 해결하기 위해 볼륨 기반 멀티모달 교차 주의 집중(VMA) 메커니즘을 제안합니다. 이 방식은 모달리티 간의 공동 기하학적 구조를 활용하여 임의 순서의 상호작용을 효율적으로 모델링합니다.
핵심 포인트
- 기존 쌍별 점곱 방식의 이차 복잡도 문제 해결
- 볼륨 기반의 새로운 교차 주의 집중(VMA) 메커니즘 도입
- 임의 순서의 모달리티 상호작용을 네이티브하게 모델링
- 멀티모달 학습 태스크에서 향상된 효과성 및 효율성 입증
Transformer 기반 멀티모달 모델은 이질적인 모달리티 (modalities) 간의 정보를 통합하기 위해 주의 집중 (attention) 메커니즘에 의존합니다. 이러한 성공에도 불구하고, 기존의 멀티모달 주의 집중 공식은 여러 모달리티가 공동으로 관여해야 하는 상황에서도 쌍별 점곱 상호작용 (pairwise dot-product interactions)의 집합을 통해 점수를 계산하거나, 모든 모달리티를 키 (keys)로 연결 (concatenating)하는 방식을 사용합니다. 그 결과, 현재의 접근 방식들은 모달리티 수에 따라 이차 복잡도 (quadratic complexity)를 초래하거나, 여러 표현 (representations)의 공동 구성에 의존하는 상호작용을 명시적으로 모델링하는 데 실패합니다. 본 연구에서는 쿼리 (query)와 여러 모달리티별 키 (keys)의 공동 기하학적 구조 (joint geometry)의 함수로 주의 집중 점수를 정의하는 새로운 교차 주의 집중 메커니즘인 볼륨 기반 멀티모달 교차 주의 집중 (Volumetric Multimodal cross-Attention, VMA)을 소개합니다. VMA는 여러 모달리티에 걸쳐 쿼리 및 키 벡터에 의해 형성되는 볼륨 (volume)을 계산하여, 쌍별 유사성 (pairwise similarity)을 넘어선 공동 멀티모달 의존성을 포착하며, 임의 순서의 모달리티 상호작용 (any-order modality interactions)을 네이티브하게 모델링할 수 있게 합니다. 우리는 임의의 수의 모달리티를 통합하도록 명시적으로 설계된 새로운 멀티모달 Transformer 아키텍처인 GRAMformer에 VMA를 통합합니다. 우리는 멀티모달 학습 태스크에서 제안된 모델을 평가하여 향상된 효과성과 효율성을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기