arXiv논문2026. 05. 12. 02:06

GazeVLM: 내부 어텐션 제어를 통한 멀티모달 추론을 위한 능동 시각

요약

GazeVLM은 인간의 능동 시각(active vision) 원리를 모방하여, 기존 VLM의 수동적이고 정적인 정보 처리 방식을 개선한 멀티모달 아키텍처입니다. 이 모델은 어텐션 자원 배포에 대한 메타인지적 제어를 추론 루프 자체에 내재화하며, 시선 토큰(<LOOK>)을 자율적으로 생성하도록 함으로써 공간적이고 목표 지향적인 추론 능력을 강화합니다. 그 결과, 기존 최신 VLM 대비 높은 해상도의 멀티모달 추론 성능 향상을 입증했습니다.

핵심 포인트

GazeVLM은 인간의 '능동 시각' 메커니즘을 모방하여 시각 정보 처리를 개선함.
기존 VLM이 겪는 공간적 추론 희석 및 언어적 환각 문제를 해결하는 것을 목표로 함.
모델 아키텍처에 어텐션 자원 배포를 위한 '메타인지적 감독' 기능을 내재화함.
시선 토큰(<LOOK>)을 통해 모델이 스스로 어디에 집중할지 결정하도록 만듦으로써 추론 능력을 향상시킴.
HRBench-4k 및 HRBench-8k 등에서 기존 최신 VLM 대비 높은 성능 우위를 입증함.

인간의 시각적 추론은 능동 시각(active vision)에 의해 지배됩니다. 이는 메타인지적 통제가 상향식 목표 지향 주의를 구동하여, 주변 환경에 대한 인지(peripheral awareness)를 유지하면서 초점(foveal focus)을 작업 관련 세부 사항으로 동적으로 라우팅하는 과정입니다. 반면, 현대의 Vision-Language Models (VLMs)는 시각 정보를 수동적으로 처리하며, 거대한 토큰 컨텍스트의 정적인 축적에 의존합니다. 이는 공간적 추론을 희석시키고 언어적 환각(linguistic hallucinations)을 유발합니다. 본 논문에서는 다음과 같은 패러다임 전환을 제안합니다: GazeVLM은 어텐션 자원 배포에 대한 메타인지적 감독을 추론 루프 자체에 내재화하는 멀티모달 아키텍처입니다. VLM이 시선 토큰($ exttt{<LOOK}$을 자율적으로 생성하도록 함으로써

rewards valid grounding, 당사의 4B 매개변수 GazeVLM은 높은 해상도의 멀티모달 추론 성능을 제공하며, HRBench-4k와 HRBench-8k에서 해당 매개변수 클래스의 최신 VLM(Vision-Language Model)보다 약 4% 더 높고, 이미지로 생각하는 것을 중심으로 구축된 에이전트형 멀티모달 파이프라인에서는 5% 이상 높은 성능을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

GazeVLM: 내부 어텐션 제어를 통한 멀티모달 추론을 위한 능동 시각

요약

핵심 포인트

댓글