참여, 변환, 또는 침묵: 효율적인 멀티모달 LLM 추론을 위한 연산자 수준의 시각적 스킵 (Operator-Level Visual

멀티모달 거대 언어 모델 (MLLMs)은 점점 더 긴 시각적 토큰 (visual-token) 시퀀스를 처리하고 있으며, 이는 전체적인 추론 연산량을 증가시킵니다. 기존의 가속화 방법들은 대개 시각적 토큰을 제거하거나 전체 레이어에서 시각적 토큰 업데이트를 건너뛰지만, 이러한 거친 (coarse) 전략은 미세한 증거를 버리거나 유용한 연산자 (operator)를 중복된 것과 함께 억제할 수 있습니다. 본 논문에서 우리는 답변 관찰 가능성 (answer-observable) 관점에서 시각적 토큰 연산을 연구하였으며, 후기 시각적 토큰 업데이트가 큰 규모를 유지하면서도 답변 토큰 표현 (answer-token representations)에는 거의 영향을 미치지 않을 수 있음을 발견했습니다. 이러한 답변 침묵 중복성 (answer-silent redundancy)에 착안하여, 우리는 각 Transformer 레이어를 어텐션 (attention) 및 FFN 연산자로 분해하고, 유용한 시각적 연산이 종종 연산자 지배적 (operator-dominant)이며 레이어 의존적 (layer-dependent)임을 보여줍니다. 우리는 전체 시각적 토큰 시퀀스를 보존하면서 중복되는 어텐션, FFN, 또는 둘 다를 선택적으로 우회하는 연산자 수준의 시각적 토큰 스킵 프레임워크를 제안합니다. 세 가지 MLLM 아키텍처와 10개의 VQA 벤치마크에 걸친 실험을 통해, 우리의 방법이 강력한 효율성-정확도 트레이드오프 (efficiency-accuracy trade-offs)를 달성함을 보여주며, Qwen3-VL에서 바닐라 (vanilla) 모델 성능의 extbf{99.5}%를 유지하면서 extbf{33.7}%의 TFLOPs를 감소시킵니다.

Insights

참여, 변환, 또는 침묵: 효율적인 멀티모달 LLM 추론을 위한 연산자 수준의 시각적 스킵 (Operator-Level Visual

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들