arXiv논문2026. 06. 03. 12:12

시각적 지시어 튜닝(Visual Instruction Tuning)은 추상화를 통해 모달리티를 정렬한다

요약

시각적 지시어 튜닝이 LLM의 중간 의미론적 레이어에 시각적 특징을 어떻게 임베딩하고 정렬하는지 분석합니다. 연구 결과, 튜닝은 초기 레이어를 우회하여 중간 레이어를 시각-언어 처리의 핵심으로 활용하며, 이를 통해 효율적인 멀티모달 통합이 가능함을 입증했습니다.

핵심 포인트

지시어 튜닝은 시각적 특징을 LLM의 중간 의미론적 레이어에 직접 임베딩함
중간 레이어는 시각-언어 처리의 핵심적인 의미론적 역할을 수행함
미세 조정은 기존의 추상화 단계를 확장하여 시각과 텍스트 특징을 정렬함
중간 레이어에만 제한된 미세 조정으로 학습 시간 단축 및 성능 유지 가능

시각적 지시어 튜닝(Visual Instruction Tuning)은 사전 학습된 대규모 언어 모델(Large Language Model, LLM)이 텍스트와 함께 이미지 정보를 처리할 수 있도록 효과적으로 적응시킵니다. 하지만 시각적 특징(visual features)이 LLM 백본(backbone)의 계층적 추상화 구조 내에 어떻게 임베딩되는지는 여전히 불분명합니다. 다양한 시각-언어(vision-language) 아키텍처를 통해, 우리는 지시어 튜닝(instruction tuning)이 주로 가교 역할을 수행하며, 단일 모달(unimodal) 처리에 전념하는 초기 레이어들을 우회하여 시각적 특징을 LLM의 중간 의미론적 레이어(intermediate semantic layers)에 직접 임베딩한다는 것을 보여줍니다. 프로빙 분석(probing analyses)과 인과적 개입(causal interventions)을 통해, 우리는 이러한 중간 레이어들이 시각-언어 처리의 의미론적 핵심(semantic core)이며, 광범위한 멀티모달 벤치마크 성능에서 결정적인 역할을 한다는 것을 입증합니다. 또한, 의미론적으로 동일한 시각적 및 텍스트 표현의 기하학적 구조(geometry)를 비교함으로써, 미세 조정(fine-tuning)이 기존의 추상화 단계를 확장 및 강화하여 시각적 특징을 기존의 텍스트 특징과 정렬시킨다는 것을 발견했습니다. 마지막으로, 미세 조정을 중간 레이어에만 제한함으로써 이러한 국소적 정렬(localized alignment)의 기능적 역할을 확인했습니다. 이 전략은 시각 중심 벤치마크에서 전체 미세 조정(full fine-tuning)의 성능을 유지하면서도 학습 시간을 단축합니다. 우리의 결과는 멀티모달 통합이 LLM의 내부 추상화 엔진(internal abstraction engine)을 재용도화함으로써 발생하는 국소적 현상임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

시각적 지시어 튜닝(Visual Instruction Tuning)은 추상화를 통해 모달리티를 정렬한다

요약

핵심 포인트

댓글