본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 28. 13:21

자연스러운 독서 과정에서 VLM이 LLM에 비해 인간 정렬(Human Alignment)을 전역적으로 향상시키지 않을 수 있음

요약

본 연구는 VLM의 멀티모달 학습이 자연스러운 독서 과정에서 LLM보다 인간의 텍스트 처리 방식을 전역적으로 더 잘 모사하는지 분석합니다. fMRI와 안구 추적 데이터를 활용한 결과, 시각적 학습 이력이 인간 정렬에 전역적인 이점을 주지는 않으며 특정 시각적 의미론적 콘텐츠가 포함된 경우에만 선택적으로 기여함을 밝혀냈습니다.

핵심 포인트

  • VLM의 멀티모달 학습이 인간의 텍스트 처리 정렬을 전역적으로 향상시키지 않음
  • 언어 내부적 표현이 인간의 텍스트 모델링에 핵심적인 요소로 유지됨
  • 시각적 의미론적 콘텐츠가 강한 문장에서만 VLM의 정렬 이점이 나타남
  • fMRI 및 안구 운동 데이터를 활용한 모델-인간 정렬 평가 프레임워크 제시

대규모 언어 모델 (LLMs)은 인간의 언어 처리 과정을 모사하는 점점 더 유용한 계산 모델이 되었지만, 시각-언어 학습 (vision-language learning)이 자연스러운 독서 과정에서 텍스트 표현 (text representations)을 더 인간과 유사하게 만드는지는 여전히 불분명합니다. 본 연구에서는 엄격한 텍스트 전용 (text-only) 설정 하에서 긴밀하게 매칭된 LLM과 시각-언어 모델 (VLM) 쌍을 비교함으로써 이 질문을 다룹니다. 이를 통해 온라인 시각 입력 (online visual input)이나 교차 모달 융합 (cross-modal fusion)으로부터 멀티모달 학습 이력 (multimodal training history)의 효과를 분리하여 분석할 수 있습니다. 우리는 전체 피질 fMRI (whole-cortex fMRI) 반응과 동기화된 안구 추적 사카드 (eye-tracking saccades)를 포함하는 인간의 자연스러운 독서 데이터셋을 통해 모델의 정렬 (alignment)을 평가합니다. 우리의 연구 결과는 멀티모달 사전 학습 (multimodal pretraining)이 자연스러운 독서 중 인간 정렬에 있어 균일하고 전역적인 이점을 제공하지 않을 수 있음을 보여주며, 이는 언어 내부적 표현 (language-internal representations)이 인간의 텍스트 처리를 모델링하는 핵심 요소로 남아 있음을 나타냅니다. 그러나 문장에 더 강한 시각적 의미론적 콘텐츠 (visual semantic content)가 포함될 경우 VLM의 이점이 더 선택적으로 나타날 수 있으며, 이는 fMRI와 안구 운동 정렬 (eye-movement alignments) 모두에서 수렴하는 증거를 통해 확인되었습니다. 종합적으로, 우리의 연구 결과는 시각적 학습 이력이 언어 처리의 모델-인간 정렬을 어떻게 형성하는지 테스트하기 위한 통제된 인 실리코 (in silico) 프레임워크를 제공하며, 멀티모달 사전 학습이 자연스러운 독서 중 인간과 유사한 언어 표현에 전역적이기보다는 선택적으로 기여한다는 점을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0