arXiv논문2026. 06. 19. 10:52

VLM 내부의 위장된 시각적 컨텍스트(Disguised Visual Context)의 숨겨진 진화

요약

VLM의 통합 아키텍처에 따른 시각적 토큰의 변환 과정을 연구합니다. 인컨텍스트 프롬프트 방식과 레이어별 주입 방식이 시각적 표현의 진화와 언어 공간 정렬에 미치는 차이를 분석합니다.

핵심 포인트

시각적 토큰은 통합 패러다임에 따라 점진적으로 재형성됨
인컨텍스트와 레이어별 주입 방식은 서로 다른 주파수 특성을 포착함
VLM의 성능은 어텐션 할당뿐 아니라 레이어별 시각 표현 품질에 좌우됨
통합 아키텍처가 시각 정보와 LLM 간의 정렬을 결정하는 핵심 요소임

시각적 토큰 (Visual tokens)은 가공되지 않은 이질적인 신호로서 대규모 언어 모델 (LLMs)에 입력됩니다. 이러한 토큰들이 어떻게 의미 있는 표현 (representations)으로 변환되고 언어 공간 (language space)과 상호작용하는지는 전적으로 통합 아키텍처 (integration architecture)에 달려 있습니다. 시각적 토큰을 입력 시퀀스 내의 인컨텍스트 프롬프트 (in-context prompts)로 취급하느냐, 혹은 LLM의 중간 레이어 (intermediate layers)에 직접 주입하느냐의 차이가 있습니다. 이러한 아키텍처적 선택이 시각 정보와 LLM과의 통합을 위한 내부 변환에 어떠한 영향을 미치는지에 대한 통제된 비교와 이해는 여전히 미흡한 상태입니다. 본 연구에서는 단일 이미지, 다중 이미지 및 비디오 벤치마크 전반에 걸쳐 동일한 학습 조건 하에서 인컨텍스트 (in-context) 및 레이어별 주입 (layer-wise injection) VLM 통합 패러다임을 평가함으로써 공정한 비교를 제공합니다. 이를 통해 우리는 시각적 토큰이 언어적 구조가 결여된 가공되지 않은 표현인 '위장된 시각적 컨텍스트 (disguised visual context)'로서 LLM에 진입하지만, 통합 패러다임에 따라 점진적으로 재형성되며 각 패러다임이 시각 신호의 근본적으로 다른 주파수 특성 (frequency characteristics)을 포착한다는 숨겨진 진화를 밝혀냅니다. 우리는 LLM 내부의 이러한 진화가 VLM이 어떤 시각적 특징을 효과적으로 활용할 수 있는지, 시각적 표현이 언어 공간과 어떻게 정렬되는지, 그리고 궁극적으로 각 패러다임이 다양한 작업에서 어떻게 성능을 발휘하는지를 결정한다는 것을 보여줍니다. 나아가 우리는 어텐션 할당 (attention allocation)만으로는 불충분하며, 성능은 각 레이어에서의 시각적 표현의 품질에 의해 좌우된다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

VLM 내부의 위장된 시각적 컨텍스트(Disguised Visual Context)의 숨겨진 진화

요약

핵심 포인트

댓글