arXiv논문2026. 05. 28. 13:21

자연스러운 독서 과정에서 VLM이 LLM에 비해 인간 정렬(Human Alignment)을 전역적으로 향상시키지 않을 수 있음

요약

본 연구는 VLM의 멀티모달 학습이 자연스러운 독서 과정에서 LLM보다 인간의 텍스트 처리 방식을 전역적으로 더 잘 모사하는지 분석합니다. fMRI와 안구 추적 데이터를 활용한 결과, 시각적 학습 이력이 인간 정렬에 전역적인 이점을 주지는 않으며 특정 시각적 의미론적 콘텐츠가 포함된 경우에만 선택적으로 기여함을 밝혀냈습니다.

핵심 포인트

VLM의 멀티모달 학습이 인간의 텍스트 처리 정렬을 전역적으로 향상시키지 않음
언어 내부적 표현이 인간의 텍스트 모델링에 핵심적인 요소로 유지됨
시각적 의미론적 콘텐츠가 강한 문장에서만 VLM의 정렬 이점이 나타남
fMRI 및 안구 운동 데이터를 활용한 모델-인간 정렬 평가 프레임워크 제시

대규모 언어 모델 (LLMs)은 인간의 언어 처리 과정을 모사하는 점점 더 유용한 계산 모델이 되었지만, 시각-언어 학습 (vision-language learning)이 자연스러운 독서 과정에서 텍스트 표현 (text representations)을 더 인간과 유사하게 만드는지는 여전히 불분명합니다. 본 연구에서는 엄격한 텍스트 전용 (text-only) 설정 하에서 긴밀하게 매칭된 LLM과 시각-언어 모델 (VLM) 쌍을 비교함으로써 이 질문을 다룹니다. 이를 통해 온라인 시각 입력 (online visual input)이나 교차 모달 융합 (cross-modal fusion)으로부터 멀티모달 학습 이력 (multimodal training history)의 효과를 분리하여 분석할 수 있습니다. 우리는 전체 피질 fMRI (whole-cortex fMRI) 반응과 동기화된 안구 추적 사카드 (eye-tracking saccades)를 포함하는 인간의 자연스러운 독서 데이터셋을 통해 모델의 정렬 (alignment)을 평가합니다. 우리의 연구 결과는 멀티모달 사전 학습 (multimodal pretraining)이 자연스러운 독서 중 인간 정렬에 있어 균일하고 전역적인 이점을 제공하지 않을 수 있음을 보여주며, 이는 언어 내부적 표현 (language-internal representations)이 인간의 텍스트 처리를 모델링하는 핵심 요소로 남아 있음을 나타냅니다. 그러나 문장에 더 강한 시각적 의미론적 콘텐츠 (visual semantic content)가 포함될 경우 VLM의 이점이 더 선택적으로 나타날 수 있으며, 이는 fMRI와 안구 운동 정렬 (eye-movement alignments) 모두에서 수렴하는 증거를 통해 확인되었습니다. 종합적으로, 우리의 연구 결과는 시각적 학습 이력이 언어 처리의 모델-인간 정렬을 어떻게 형성하는지 테스트하기 위한 통제된 인 실리코 (in silico) 프레임워크를 제공하며, 멀티모달 사전 학습이 자연스러운 독서 중 인간과 유사한 언어 표현에 전역적이기보다는 선택적으로 기여한다는 점을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자연스러운 독서 과정에서 VLM이 LLM에 비해 인간 정렬(Human Alignment)을 전역적으로 향상시키지 않을 수 있음

요약

핵심 포인트

댓글