단일 자극 기반의 모달 간 수렴성 조절 연구
요약
본 논문은 신경망이 다양한 모달리티(Modalities)를 학습할 때 나타나는 '표현적 수렴성(representational convergence)' 현상을 분석합니다. 특히, 단일 자극(single-stimulus) 수준에서 각 모달 내의 분산도(intra-modal dispersion)가 시각 모델과 언어 모델 간의 교차 모달 수렴성(cross-modal convergence)을 강력하게 조절함을 발견했습니다. 즉, 특정 자극에 대해 여러 비전 모델이 높은 일치도를 보일수록 (낮은 intra-modal dispersion), 이
핵심 포인트
- 신경망의 표현적 수렴성은 뇌의 표상 방식과 연관성이 높다는 가설을 제시합니다.
- Generalized Procrustes Algorithm 기반 방법론으로 단일 자극 수준에서의 모달 내 수렴성을 측정했습니다.
- 단일 자극에서 비전 모델 간 일치도가 높을수록 (낮은 intra-modal dispersion), 시각-언어 모델 간의 교차 모달 정렬(cross-modal alignment)이 2배까지 높아지는 것을 확인했습니다.
- 이 효과는 다양한 비전/언어 모델 쌍에 걸쳐 일반화되었으며, 수렴성의 근원적 이해에 기여합니다.
Modulating Cross-Modal Convergence with Single-Stimulus, Intra-Modal Dispersion
Neural networks exhibit a remarkable degree of representational convergence across diverse architectures, training objectives, and even data modalities. This convergence is predictive of alignment with brain representation. A recent hypothesis suggests this arises from learning the underlying structure in the environment in similar ways. However, it is unclear how individual stimuli elicit convergent representations across networks. An image can be perceived in multiple ways and expressed differently using words.
Here, we introduce a methodology based on the Generalized Procrustes Algorithm to measure intra-modal representational convergence at the single-stimulus level. We applied this to vision models with distinct training objectives, selecting stimuli based on their degree of alignment (intra-modal dispersion). Crucially, we found that this intra-modal dispersion strongly modulates alignment between vision and language models (cross-modal convergence). Specifically, stimuli with low intra-modal dispersion (high agreement among vision models) elicited significantly higher cross-modal alignment than those with high dispersion, by up to a factor of two (e.g., in pairings of DINOv2 with language models). This effect was robust to stimulus selection criteria and generalized across different pairings of vision and language models.
Measuring convergence at the single-stimulus level provides a path toward understanding the sources of convergence and divergence across modalities, and between neural networks and human neural representations.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기