텍스트 노이즈 및 중복성 대응: 엔트로피 인지형 밀집 시각 토큰 프루닝 (Entropy-Aware Dense Visual Token

시각적 토큰 프루닝 (Visual token pruning)은 중복된 이미지 패치 (image patches)를 압축하여 시각-언어 모델 (VLMs)의 속도를 가속화하는 핵심적인 전략이지만, 기존 방식들은 밀집된 지시어 (dense instructions) 및 세밀한 질의 (fine-grained queries) 상황에서 중요한 단서들을 보존하는 데 종종 실패합니다. 본 논문에서는 이러한 실패 원인을 조사하고 두 가지 근본적인 병목 현상을 식기합니다: 밀집된 교차 모달 스코어링 (cross-modal scoring)을 저해하는 광범위하게 분산된 텍스트 노이즈 (textual noise), 그리고 표준적인 토큰 선택 (token selection)에 내재된 특징 파편화 (feature fragmentation)입니다. 이러한 문제를 해결하기 위해, 우리는 프루닝을 구조화된 압축 문제로 재정의하는 프레임워크인 엔트로피 인지형 밀집 프루닝 (Entropy-Aware Dense Pruning, EADP)을 제안합니다. EADP는 먼저 통계적 엔트로피 (statistical entropy)를 활용하여 텍스트 노이즈를 정량화하고 필터링함으로써, 견고하고 세밀한 지시어 관련성 점수 (instruction relevance score)를 산출합니다. 이후, 단순한 Top-K 선택 대신, EADP는 공간적 사전 정보 (spatial prior)를 가진 서브모듈러 최대화 (submodular maximization) 문제로 토큰 선택을 구성하여, 전체론적이고 중복되지 않는 시각적 표현 (visual representation)을 명시적으로 보장합니다. 광범한 실험을 통해 EADP가 VLMs의 정확도-효율성 트레이드오프 (accuracy-efficiency trade-off)를 개선하며, 엄격한 토큰 예산 (token budgets) 하에서도 세밀한 시각적 단서들을 견고하게 보존하는 동시에 도전적인 멀티모달 벤치마크에서 SoTA 성능을 달성함을 입증합니다.

Insights

텍스트 노이즈 및 중복성 대응: 엔트로피 인지형 밀집 시각 토큰 프루닝 (Entropy-Aware Dense Visual Token

요약

핵심 포인트

댓글

오늘 GitHub은 AI Agent & 도구 체인(Toolchain)이 완전히 점령했습니다🔥

Claude Fable 5의 능력이 눈에 띄게 약화되었으며, 그 실체가 밝혀졌습니다!

Anthropic, 내부 엔지니어링 도구 Claude Code를 전사적 도구인 Claude Tag로 진화시키고 Fable 5를 공식 통합

Google이 드디어 움직였습니다! 과학 연구 심사에서 부정행위를 직접 타격하고 심사 효율과 정확성을 높일 수 있을까요?

오늘 GitHub은 AI Agent & 도구 체인(Toolchain)이 완전히 점령했습니다🔥

Claude Fable 5의 능력이 눈에 띄게 약화되었으며, 그 실체가 밝혀졌습니다!

Anthropic, 내부 엔지니어링 도구 Claude Code를 전사적 도구인 Claude Tag로 진화시키고 Fable 5를 공식 통합

Google이 드디어 움직였습니다! 과학 연구 심사에서 부정행위를 직접 타격하고 심사 효율과 정확성을 높일 수 있을까요?