GAP: 멀티모달 대규모 언어 모델의 시각 추론을 위한 세밀한 정렬 패러다임
요약
본 논문은 멀티모달 대규모 언어 모델(MLLM)의 시각 잠재 추론 과정에서 발생하는 불안정성을 진단하고, 이를 해결하기 위한 새로운 프레임워크인 GAP (Granular Alignment Paradigm)를 제안합니다. 기존 방법들이 특징 공간 불일치로 인해 신뢰도가 떨어지는 문제를 안고 있었는데, GAP는 세 가지 수준(특징, 컨텍스트, 용량)에서 시각 잠재 추론을 정렬하여 모델의 성능과 안정성을 크게 향상시킵니다.
핵심 포인트
- MLLM의 시각 잠재 추론은 기존 방식에서 특징 공간 불일치로 인해 불안정성이 발생할 수 있습니다.
- GAP (Granular Alignment Paradigm)는 세 가지 수준(특징, 컨텍스트, 용량)에서 시각 잠재 추론을 정렬하는 방법을 제안합니다.
- 첫째, PCA-aligned latent head를 사용하여 디코더 출력을 입력과 호환되는 시각적 잠재로 매핑합니다 (특징 수준 정렬).
- 둘째, 보조 시각 감독(auxiliary visual supervision)을 통해 잠재 목표를 접지시키고, 셋째, 어려운 예제에 선택적으로 잠재 감독을 할당하여 모델의 학습 효율성을 높입니다.
- Qwen2.5-VL 7B 테스트 결과, GAP가 기존 지도 학습 변형 중 가장 높은 평균 통합 지각 및 추론 성능을 달성했습니다.
시각 잠재력 추론(Visual latent reasoning)은 멀티모달 대규모 언어 모델(MLLM)이 외부 도구나 이미지 생성기 없이 연속 토큰으로 중간 시각적 증거를 생성할 수 있게 합니다. 하지만 기존 방법들은 보통 출력-입력(output-as-input) 잠재 패러다임을 따르며 불안정한 이득을 가져옵니다. 우리는 이러한 불안정성에 기여할 수 있는 특징 공간 불일치(feature-space mismatch)의 증거를 발견했습니다: 지배적인 시각-잠재 모델들은 pre-norm MLLM을 기반으로 하며, 디코더 은닉 상태(decoder hidden states)를 예측된 잠재 입력으로 재사용합니다. 비록 이러한 상태들이 모델이 소비하도록 훈련된 입력 임베딩과는 상당히 다른 노름 영역(norm regime)을 차지하고 있음에도 불구하고 그러합니다~ extcitep{xie2025mhc,li2026siamesenorm,team2026attention}. 이 불일치는 직접적인 잠재 피드백을 신뢰하기 어렵게 만들 수 있습니다. 이러한 진단에 동기를 부여받아, 우리는 시각 잠재 모델링을 위한 GAP (Granular Alignment Paradigm)를 제안합니다. GAP는 세 가지 수준에서 시각 잠재 추론을 정렬합니다: 첫째, 특징 수준 정렬(feature-level alignment)은 가벼운 PCA-정렬된 잠재 헤드(PCA-aligned latent head)를 통해 디코더 출력을 입력과 호환되는 시각적 잠재로 매핑합니다. 둘째, 컨텍스트 수준 정렬(context-level alignment)은 검사 가능한 보조 시각 감독(auxiliary visual supervision)을 사용하여 잠재 목표를 접지시킵니다. 셋째, 용량 안내 정렬(capacity-guided alignment)은 기본 MLLM이 어려움을 겪는 예제에 선택적으로 잠재 감독을 할당합니다. Qwen2.5-VL 7B에서, 결과 모델은 우리의 지도 학습 변형 중 가장 높은 평균 통합 지각 및 추론 성능을 달성했습니다. 추론 시간 개입 탐색(Inference-time intervention probing)은 생성된 잠재가 단순히 토큰 슬롯을 추가하는 것을 넘어 작업 관련 시각 신호를 제공한다는 것을 더욱 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기