MAGIC: 시각-언어 모델(Vision-Language Models)을 위한 멀티모달 정렬 및 접지 인식 지시어 코어셋(Instruction
요약
MAGIC은 대규모 시각-언어 모델(LVLM)의 지시어 튜닝을 위해 효율적인 데이터 코어셋을 구축하는 학습 불필요(Training-free) 방법론입니다. 멀티모달 이득, 브릿징 관련성, 스킬-뉴런 시그니처라는 세 가지 신호를 활용하여 데이터 중복을 줄이고 학습 효율을 극대화합니다.
핵심 포인트
- 학습이 필요 없는 순방향 전용 코어셋 선택 방식 제안
- 멀티모달 이득, 브릿징 관련성, 뉴런 시그니처 기반 3단계 파이프라인
- 데이터 예산 20% 사용 시 기존 베이스라인 대비 성능 향상
- 전체 미세 조정 대비 실행 시간 약 73.7% 단축
대규모 시각-언어 모델(Large Vision-Language Models, LVLMs)의 지시어 튜닝(Instruction tuning)은 점점 더 방대한 멀티모달 코퍼스(Multimodal corpora)에 의존하고 있지만, 이러한 데이터셋에는 상당한 중복성, 낮은 시각적 의존성, 그리고 멀티모달 추론 동작의 매우 불균형한 커버리지를 가진 샘플들이 포함되어 있습니다. 그 결과, 균일한 서브샘플링(Subsampling)이나 단순한 점수 기반 선택은 종종 최적화되지 않은 학습 서브셋(Subsets)을 생성합니다. 우리는 멀티모달 지시어 튜닝을 위해 작지만 동작적으로 충실한 서브셋을 구축하도록 설계된, 학습이 필요 없는(Training-free) 순방향 전용(Forward-only) 코어셋 선택 방법인 MAGIC을 소개합니다. MAGIC은 사전 학습된 VLM에서 추출한 세 가지 내재적 신호(Intrinsic signals)를 기반으로 구축됩니다: 시각적 입력으로부터 얻는 가능성 향상을 측정하는 멀티모달 이득(Multimodal Gain), 시각적 토큰에 대한 답변 토큰의 접지(Grounding) 선명도를 포착하는 브릿징 관련성(Bridging Relevance), 그리고 최상위 활성화된 피드포워드 뉴런(Feed-forward neurons)을 통해 각 샘플에 의해 유도되는 기능적 계산을 특징짓는 스킬-뉴런 시그니처(Skill-Neuron Signatures)입니다. MAGIC은 이 신호들을 3단계 파이프라인으로 결합합니다: 낮은 이득을 가진 예시 필터링, 정규화된 품질 목표에 따른 후보 순위 지정, 그리고 잠재적인 멀티모달 스킬 커버리지를 보존하기 위해 이산적인 뉴런 시그니처에 대해 버킷 단위 예산 할당(Bucket-wise budget allocation)을 수행하는 것입니다. 이러한 공식화는 역전파(Backpropagation), 보조 선택기(Auxiliary selector) 학습, 그리고 연속적인 활성화 공간에서의 비용이 많이 드는 클러스터링(Clustering)을 피하면서도, 기존 VLM에서 효율적이고 쉽게 배포될 수 있습니다. LLaVA-665K 및 Vision-Flan 데이터셋, 그리고 대규모 타겟 모델인 LLaVA-1.5-7B 및 -13B로의 전이 설정(Transfer settings) 전반에 걸쳐, MAGIC은 동일한 20% 예산 조건에서 강력한 베이스라인(Baselines)보다 일관되게 향상된 성능을 보여줍니다. MAGIC은 LLaVA-665K에서 전체 미세 조정(Full finetuning) 대비 100.3%의 상대적 성능을, Vision-Flan-186K에서 101.6%의 상대적 성능을 달성하는 동시에, 실제 실행 시간(Wall-clock run time)을 73.7% 단축했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기