InfoMerge: 효율적인 비디오 거대 언어 모델 (Video-LLMs)을 위한 정보 인지형 토큰 압축
요약
Video-LLM의 계산 오버헤드를 줄이기 위해 제안된 학습이 필요 없는(training-free) 시각적 토큰 압축 기술인 InfoMerge를 소개합니다. Temporal Fingerprint Difference와 콘텐츠 인지형 예산 할당(CABA)을 통해 정보 밀도에 따라 토큰을 동적으로 배분합니다.
핵심 포인트
- Temporal Fingerprint Difference로 2차 시간적 중복성 추정
- CABA를 통한 세그먼트별 동적 토큰 예산 할당
- LLaVA-OneVision-7B 기준 토큰 85% 감소 및 4.24배 속도 향상
- 압축 시에도 원래 성능의 98.8%를 유지하는 높은 효율성
비디오 거대 언어 모델 (Video-LLMs)은 비디오 이해 분야에서 강력한 성능을 달성하지만, 과도한 시각적 토큰 (visual tokens)은 상당한 계산 오버헤드 (computational overhead)를 초래합니다. 기존의 학습이 필요 없는 (training-free) 압축 방법들은 시각적 토큰을 줄임으로써 추론 효율성을 개선하지만, 시간적 중복성 (temporal redundancy) 추정을 위해 인접 프레임 간의 국소적 유사성에 의존하거나 주로 세그먼트 (segment) 길이에 따라 토큰 예산을 할당하는 경우가 많습니다. 이러한 설계는 프레임 수준의 노이즈에 민감하며, 실제 비디오의 비균일한 정보 분포를 포착하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 강력한 중복성 추정과 콘텐츠 인지형 예산 할당을 통해 토큰 활용도를 높이는 학습이 필요 없는 시각적 토큰 압축 방법인 InfoMerge를 제안합니다. 구체적으로, 우리는 Temporal Fingerprint Difference를 제안합니다. 이는 각 세그먼트 내 동일한 공간 위치에 있는 토큰들의 시간적 유사성 구조를 모델링하는 세그먼트 수준의 2차 시간적 중복성 (second-order temporal redundancy) 추정 전략입니다. 나아가 우리는 세그먼트의 고유성과 스펙트럼 엔트로피 (spectral-entropy) 기반의 표현 풍부도에 따라 세그먼트 수준의 토큰 예산을 동적으로 할당하는 콘텐츠 인지형 예산 할당 (Content-Aware Budget Allocation, CABA)을 도입합니다. 중복되는 정적 영역의 반복적인 보존을 줄이고 정보가 많은 세그먼트에 더 많은 토큰을 할당함으로써, InfoMerge는 강력한 성능을 유지하면서도 제한된 토큰 예산을 더 효율적으로 사용합니다. 광범위한 실험을 통해 InfoMerge가 여러 벤치마크와 백본 (backbone) 모델에 걸쳐 강력한 효율성-정확도 트레이드오프 (efficiency--accuracy trade-offs)를 달성함을 보여주었으며, 공격적인 압축 상황에서 더욱 두드러진 이점을 나타냈습니다. LLaVA-OneVision-7B에서 InfoMerge는 시각적 토큰의 85%를 줄이고 프리필 (prefill) 단계에서 4.24배의 속도 향상을 달성하면서도, 원래 평균 성능의 98.8%를 유지합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기