시각-언어 추론을 위한 분해된 On-Policy 증류: Visual Grounding을 위한 그래디언트 조향 (Steering
요약
본 연구는 VLM 증류 과정에서 언어 사전 지식과 시각적 접지 간의 그래디언트 직교성을 발견하고, 이를 수학적으로 분해하여 제안합니다. 시각적 접지 성능을 높이기 위해 업데이트 벡터를 동적으로 재정렬하는 Visual Gradient Steering(VGS) 기법을 통해 기존 방식보다 뛰어난 성능을 입증했습니다.
핵심 포인트
- 언어 분포와 시각적 지각의 그래디언트 벡터가 거의 직교함을 발견
- 기존 단일 구조 증류 방식의 타협적 최적화 문제 지적
- 시각적 부분 공간을 우선시하는 VGS 기법 도입
- 최소한의 오버헤드로 탁월한 시각적 접지 성능 달성
On-Policy 증류 (On-policy distillation)가 작은 추론 모델을 학습시키기 위한 조밀한 감독 (dense supervision)을 제공하지만, 멀티모달 (multimodal) 영역에서의 최적화 역학 (optimization dynamics)은 여전히 충분히 탐구되지 않았습니다. 본 연구에서는 손실 함수 (loss)를 언어 사전 지식 (language prior)과 시각적 접지 (visual grounding)라는 두 개의 별개 구성 요소로 수학적으로 분해함으로써, 시각-언어 모델 (Vision-Language Model, VLM) 증류에 대한 기존의 단일 구조적 (monolithic) 관점에 도전합니다. 우리의 분석에 따르면, 이 구성 요소들에 대한 그래디언트 벡터 (gradient vectors)는 거의 직교 (orthogonal)하며, 이는 교사 모델 (teacher model)의 언어 분포와 정렬하려는 목표가 시각적 지각 (visual perception)을 일치시키려는 목표와 기하학적으로 독립적임을 나타냅니다. 결과적으로, 표준 최적화 방식은 두 목표를 암묵적으로 균형 잡는 차선책의 타협 궤적 (suboptimal compromise trajectory)을 수동적으로 따르게 됩니다. 시각적 접지 (visual grounding)가 시각-언어 추론의 주요 병목 현상 (bottleneck)을 구성한다는 가설을 바탕으로, 우리는 업데이트 벡터 (update vector)를 동적으로 재정렬하여 시각적 부분 공간 (visual subspace)을 우선시하는 방법인 시각적 그래디언트 조향 (Visual Gradient Steering, VGS)을 도입합니다. 다양한 증류 설정과 복잡한 멀티모달 벤치마크에서의 실험 결과는 VGS가 표준적인 단일 구조의 On-Policy 증류 방식을 크게 능가하며, 최소한의 학습 오버헤드 (training overhead)로 탁월한 접지 (grounding) 성능을 달성함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기