텍스트 노이즈 및 중복성 대응: 엔트로피 인지형 밀집 시각 토큰 프루닝 (Entropy-Aware Dense Visual Token
요약
시각-언어 모델(VLM)의 속도를 높이기 위한 시각적 토큰 프루닝 과정에서 발생하는 텍스트 노이즈와 특징 파편화 문제를 해결하는 EADP 프레임워크를 제안합니다. 엔트로피를 활용해 노이즈를 필터링하고 서브모듈러 최대화 기법으로 중복 없는 시각적 표현을 보장합니다.
핵심 포인트
- 텍스트 노이즈와 특징 파편화로 인한 기존 프루닝의 한계 식별
- 엔트로피 기반의 지시어 관련성 점수 산출로 노이즈 필터링
- 서브모듈러 최대화 문제를 통한 중복 없는 시각적 표현 보장
- 엄격한 토큰 예산 하에서도 SoTA 성능 및 효율성 달성
시각적 토큰 프루닝 (Visual token pruning)은 중복된 이미지 패치 (image patches)를 압축하여 시각-언어 모델 (VLMs)의 속도를 가속화하는 핵심적인 전략이지만, 기존 방식들은 밀집된 지시어 (dense instructions) 및 세밀한 질의 (fine-grained queries) 상황에서 중요한 단서들을 보존하는 데 종종 실패합니다. 본 논문에서는 이러한 실패 원인을 조사하고 두 가지 근본적인 병목 현상을 식기합니다: 밀집된 교차 모달 스코어링 (cross-modal scoring)을 저해하는 광범위하게 분산된 텍스트 노이즈 (textual noise), 그리고 표준적인 토큰 선택 (token selection)에 내재된 특징 파편화 (feature fragmentation)입니다. 이러한 문제를 해결하기 위해, 우리는 프루닝을 구조화된 압축 문제로 재정의하는 프레임워크인 엔트로피 인지형 밀집 프루닝 (Entropy-Aware Dense Pruning, EADP)을 제안합니다. EADP는 먼저 통계적 엔트로피 (statistical entropy)를 활용하여 텍스트 노이즈를 정량화하고 필터링함으로써, 견고하고 세밀한 지시어 관련성 점수 (instruction relevance score)를 산출합니다. 이후, 단순한 Top-K 선택 대신, EADP는 공간적 사전 정보 (spatial prior)를 가진 서브모듈러 최대화 (submodular maximization) 문제로 토큰 선택을 구성하여, 전체론적이고 중복되지 않는 시각적 표현 (visual representation)을 명시적으로 보장합니다. 광범한 실험을 통해 EADP가 VLMs의 정확도-효율성 트레이드오프 (accuracy-efficiency trade-off)를 개선하며, 엄격한 토큰 예산 (token budgets) 하에서도 세밀한 시각적 단서들을 견고하게 보존하는 동시에 도전적인 멀티모달 벤치마크에서 SoTA 성능을 달성함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기