arXiv논문2026. 05. 26. 12:49

MAGIC: 시각-언어 모델(Vision-Language Models)을 위한 멀티모달 정렬 및 접지 인식 지시어 코어셋(Instruction

요약

MAGIC은 대규모 시각-언어 모델(LVLM)의 지시어 튜닝을 위해 효율적인 데이터 코어셋을 구축하는 학습 불필요(Training-free) 방법론입니다. 멀티모달 이득, 브릿징 관련성, 스킬-뉴런 시그니처라는 세 가지 신호를 활용하여 데이터 중복을 줄이고 학습 효율을 극대화합니다.

핵심 포인트

학습이 필요 없는 순방향 전용 코어셋 선택 방식 제안
멀티모달 이득, 브릿징 관련성, 뉴런 시그니처 기반 3단계 파이프라인
데이터 예산 20% 사용 시 기존 베이스라인 대비 성능 향상
전체 미세 조정 대비 실행 시간 약 73.7% 단축

대규모 시각-언어 모델(Large Vision-Language Models, LVLMs)의 지시어 튜닝(Instruction tuning)은 점점 더 방대한 멀티모달 코퍼스(Multimodal corpora)에 의존하고 있지만, 이러한 데이터셋에는 상당한 중복성, 낮은 시각적 의존성, 그리고 멀티모달 추론 동작의 매우 불균형한 커버리지를 가진 샘플들이 포함되어 있습니다. 그 결과, 균일한 서브샘플링(Subsampling)이나 단순한 점수 기반 선택은 종종 최적화되지 않은 학습 서브셋(Subsets)을 생성합니다. 우리는 멀티모달 지시어 튜닝을 위해 작지만 동작적으로 충실한 서브셋을 구축하도록 설계된, 학습이 필요 없는(Training-free) 순방향 전용(Forward-only) 코어셋 선택 방법인 MAGIC을 소개합니다. MAGIC은 사전 학습된 VLM에서 추출한 세 가지 내재적 신호(Intrinsic signals)를 기반으로 구축됩니다: 시각적 입력으로부터 얻는 가능성 향상을 측정하는 멀티모달 이득(Multimodal Gain), 시각적 토큰에 대한 답변 토큰의 접지(Grounding) 선명도를 포착하는 브릿징 관련성(Bridging Relevance), 그리고 최상위 활성화된 피드포워드 뉴런(Feed-forward neurons)을 통해 각 샘플에 의해 유도되는 기능적 계산을 특징짓는 스킬-뉴런 시그니처(Skill-Neuron Signatures)입니다. MAGIC은 이 신호들을 3단계 파이프라인으로 결합합니다: 낮은 이득을 가진 예시 필터링, 정규화된 품질 목표에 따른 후보 순위 지정, 그리고 잠재적인 멀티모달 스킬 커버리지를 보존하기 위해 이산적인 뉴런 시그니처에 대해 버킷 단위 예산 할당(Bucket-wise budget allocation)을 수행하는 것입니다. 이러한 공식화는 역전파(Backpropagation), 보조 선택기(Auxiliary selector) 학습, 그리고 연속적인 활성화 공간에서의 비용이 많이 드는 클러스터링(Clustering)을 피하면서도, 기존 VLM에서 효율적이고 쉽게 배포될 수 있습니다. LLaVA-665K 및 Vision-Flan 데이터셋, 그리고 대규모 타겟 모델인 LLaVA-1.5-7B 및 -13B로의 전이 설정(Transfer settings) 전반에 걸쳐, MAGIC은 동일한 20% 예산 조건에서 강력한 베이스라인(Baselines)보다 일관되게 향상된 성능을 보여줍니다. MAGIC은 LLaVA-665K에서 전체 미세 조정(Full finetuning) 대비 100.3%의 상대적 성능을, Vision-Flan-186K에서 101.6%의 상대적 성능을 달성하는 동시에, 실제 실행 시간(Wall-clock run time)을 73.7% 단축했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MAGIC: 시각-언어 모델(Vision-Language Models)을 위한 멀티모달 정렬 및 접지 인식 지시어 코어셋(Instruction

요약

핵심 포인트

댓글