본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 24. 21:51

단일 자극 기반, 모달 내 분산을 통한 교차 모달 수렴 조절

요약

본 논문은 신경망이 다양한 모달리티(Modalities)를 학습할 때 나타나는 '표현적 수렴성(representational convergence)' 현상을 분석합니다. 특히, 단일 자극(single-stimulus) 수준에서 각 모달 내의 분산도(intra-modal dispersion)가 시각 모델과 언어 모델 간의 교차 모달 수렴성(cross-modal convergence)을 강력하게 조절함을 발견했습니다. 즉, 특정 자극에 대해 여러 비전 모델이 높은 일치도를 보일수록 (낮은 intra-modal dispersion), 이

핵심 포인트

  • 신경망의 표현적 수렴성은 뇌의 표상 방식과 연관성이 높다는 가설을 제시합니다.
  • Generalized Procrustes Algorithm 기반 방법론으로 단일 자극 수준에서의 모달 내 수렴성을 측정했습니다.
  • 단일 자극에서 비전 모델 간 일치도가 높을수록 (낮은 intra-modal dispersion), 시각-언어 모델 간의 교차 모달 정렬(cross-modal alignment)이 2배까지 높아지는 것을 확인했습니다.
  • 이 효과는 다양한 비전/언어 모델 쌍에 걸쳐 일반화되었으며, 수렴성의 근원적 이해에 기여합니다.

단일 자극 기반, 모달 내 분산을 통한 교차 모달 수렴 조절

신경망(Neural networks)은 다양한 아키텍처(architectures), 훈련 목표(training objectives), 심지어 데이터 모달리티(data modalities) 전반에 걸쳐 놀라운 수준의 표현적 수렴(representational convergence)을 보입니다. 이러한 수렴은 뇌의 표현 방식과의 정렬(alignment)을 예측하는 지표가 됩니다. 최근 가설에 따르면, 이는 환경 내 근본적인 구조를 유사한 방식으로 학습하기 때문에 발생한다고 합니다. 하지만 개별 자극이 네트워크 전반에 걸쳐 어떻게 수렴적 표현(convergent representations)을 유발하는지는 불분명합니다. 예를 들어, 하나의 이미지는 여러 방식으로 인식될 수 있으며 단어를 사용하여 다르게 표현될 수도 있습니다.

여기서는 일반화된 프로크루스테스 알고리즘(Generalized Procrustes Algorithm)에 기반한 방법론을 도입하여 단일 자극 수준에서 모달 내 표현적 수렴(intra-modal representational convergence)을 측정합니다. 우리는 서로 다른 훈련 목표를 가진 비전 모델(vision models)에 이 방법을 적용했으며, 자극 선택은 그들의 정렬 정도(모달 내 분산, intra-modal dispersion)를 기준으로 했습니다. 결정적으로, 우리는 이러한 모달 내 분산이 비전과 언어 모델 간의 정렬(교차 모달 수렴, cross-modal convergence)을 강력하게 조절한다는 것을 발견했습니다. 구체적으로, 낮은 모달 내 분산을 가진 자극(비전 모델들 사이에서 높은 일치도를 보이는 경우)은 높은 분산을 가진 자극보다 훨씬 더 높은 교차 모달 정렬을 유발했으며, 그 차이는 최대 2배에 달했습니다 (예: DINOv2와 언어 모델의 조합). 이러한 효과는 자극 선택 기준에 관계없이 견고했으며, 비전과 언어 모델의 다양한 조합 전반에서 일반화되었습니다.

단일 자극 수준에서 수렴을 측정하는 것은 여러 모달리티 간, 그리고 신경망과 인간의 신경 표현 방식 사이의 수렴 및 발산(divergence) 원인을 이해할 수 있는 길을 제시합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0