MultiToP: 비디오 거대 멀티모달 모델(Video Large Multimodal Models)의 환각 현상을 완화하기 위한 시각적 토큰
요약
비디오 거대 멀티모달 모델(Video LMM)의 환각 현상을 완화하기 위한 새로운 프레임워크 MultiToP를 제안합니다. 신뢰할 수 없는 시각적 토큰을 동적인 전역 패치 토큰으로 교체하여 비디오 이해의 정확도를 높입니다.
핵심 포인트
- 신뢰할 수 없는 시각적 토큰을 정제하는 MultiToP 프레임워크 제안
- 기존 모델 수정 없이 적용 가능한 경량 시각적 토큰 패처 도입
- Qwen3-VL-4B-Instruct의 F1 점수를 50.60% 향상
- 추론 오버헤드를 최소화하면서 비디오 이해 능력 유지
비디오 거대 멀티모달 모델(Video Large Multimodal Models)은 비디오 이해 분야에서 놀라운 발전을 이루었으나, 생성된 응답이 입력 비디오에 의해 충실히 뒷받침되지 않는 환각(hallucinations) 현상에 여전히 취약합니다. 본 논문에서는 언어 생성 전 신뢰할 수 없는 시각적 토큰(visual tokens)을 정제함으로써 환각을 완화하는 멀티모달 문맥 인식 시각적 토큰 패칭(multimodal-context-aware visual token patching) 프레임워크인 MultiToP를 제안합니다. MultiToP는 토큰 수준의 교체 분포를 예측하고 신뢰할 수 없는 시각적 토큰을 동적인 전역 패치 토큰(dynamic global patch token)으로 선택적으로 대체하는 경량 시각적 토큰 패처(Visual Token Patcher)를 도입합니다. 패처를 효과적으로 학습시키기 위해, 우리는 백본(backbone)에서 유도된 정답 조건부 프레임 수준 정보 단서를 사용하여 토큰 교체를 가이드하는 정보 가이드 순위 보정(information-guided rank calibration)을 추가로 제안합니다. 정답(ground-truth) 답변 감독 및 희소성 규제(sparsity regularization)와 결합된 MultiToP는 기존 모델을 수정하지 않고도 국소적인 시각적 증거 정제를 가능하게 합니다. 광범위한 실험을 통해 MultiToP가 무시할 수 있는 수준의 추론 오버헤드(inference overhead)로 Vript-HAL에서 환각을 효과적으로 감소시키며, Qwen3-VL-4B-Instruct의 F1 점수를 기본(vanilla) 모델 대비 50.60% 향상시킨다는 것을 입증했습니다. 한편, MultiToP는 일반적인 비디오 이해 능력을 유지하며, Video-LLaVA-7B에 대해 ActivityNet-QA에서 18.58%의 상대적 정확도 이득을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기