arXiv논문2026. 05. 29. 11:28

Vision-Language Models에서의 시각적 계수 병목 현상 규명

요약

대규모 시각-언어 모델(VLMs)이 시각적 계수(counting)에서 겪는 외삽 실패 원인을 분석한 연구입니다. 연구 결과, 모델의 실패는 지각의 문제가 아니라 시각적 크기를 기호 토큰으로 연결하는 '기호 매핑' 단계의 결함임을 밝혀냈습니다.

핵심 포인트

시각적 계수 실패를 세 가지 인지 단계로 해체하여 분석
모델은 지각적 실패가 아닌 기호 매핑 단계에서 병목 발생
데이터 스케일링만으로는 보편적 숫자 공간 습득에 한계 존재
통합된 표현을 위한 귀납적 사전 지식의 필요성 시사

대규모 시각-언어 모델 (Large Vision-Language Models, VLMs)은 보간 (interpolation)에는 뛰어나지만, 체계적 일반화 (systematic generalization), 특히 시각적 계수 (visual counting)에서 치명적인 실패를 겪습니다. 본 연구에서는 시각적 계수를 시각적 개별화 (visual individuation), 크기 인식 (magnitude awareness), 기호 매핑 (symbolic mapping)이라는 세 가지 인지 단계로 해체함으로써 이러한 외삽 (extrapolation) 병목 현상을 조사합니다. 합성된 바둑판과 선형 프로브 (linear probes)를 사용하여, 우리는 시각적 백본 (visual backbones)이 외삽 영역에 이르기까지 양 (quantity)에 대한 견고하고 선형적으로 분리 가능한 표현 (representations)을 유지한다는 것을 입증하며, 이를 통해 지각적 실패 (perceptual failure) 가능성을 배제합니다. 나아가, 모델은 잠재적인 크기 인식 (latent magnitude awareness)을 유지하여, 숫자를 열거하는 데 실패한 양에 대해서도 성공적으로 비교 추론 (comparative reasoning)을 수행합니다. 우리는 이러한 붕괴가 모델이 유효한 시각적 크기를 기호 토큰 (symbolic tokens)으로 투영하지 못하는 기호 매핑 (symbolic mapping) 단계에서 발생함을 정확히 짚어냅니다. 우리의 연구 결과는 파편화된 크기 가설 (fractured magnitude hypothesis)을 뒷받침합니다. 즉, VLMs는 보편적인 숫자 공간을 습득하는 데 실패하며, 대신 보지 못한 양에 대한 교차 모달 접지 (cross-modal grounding)를 방해하는 서로 분리된 모달리티별 통계적 매니폴드 (modality-specific statistical manifolds)를 학습한다는 것입니다. 최첨단 파운데이션 모델 (foundation model)을 통해 검증된 우리의 결과는, 데이터 스케일링 (data scaling)만으로는 불충분하며, 통합된 표현을 강제하는 귀납적 사전 지식 (inductive priors)을 통해 이 간극을 메워야 함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Vision-Language Models에서의 시각적 계수 병목 현상 규명

요약

핵심 포인트

댓글