arXiv논문2026. 06. 15. 04:04

중요한 것을 확대하기: 시각적 텍스트 이해를 위한 어텐션 가이드 적응형 렌더링 (Attention-Guided Adaptive

요약

VLM의 시각적 텍스트 이해(VTC) 능력을 향상시키기 위해 어텐션 메커니즘을 활용한 AGAR 방식을 제안합니다. 모델의 중간-후기 레이어 어텐션을 통해 중요한 시각적 패치를 식별하고 이를 확대 렌더링하여 성능을 개선합니다.

핵심 포인트

VLM이 시각적 텍스트를 처리할 때 국지화 어텐션과 정확도가 분리되는 현상 발견
AGAR는 학습이 필요 없는 모델 불가지론적(model-agnostic) 방식
중요 시각적 패치를 식별하여 확대 재렌더링함으로써 성능을 일관되게 향상
9개 벤치마크와 4개 VLM 백본을 통해 플러그 앤 플레이 도구로서의 효용성 입증

시각적 텍스트 이해 (Visual Text Comprehension, VTC)는 시각-언어 모델 (Vision-Language Model, VLM)이 읽을 수 있도록 텍스트를 이미지로 렌더링하며, 이를 통해 LLM의 컨텍스트 창 (context-window) 제한을 우회하고 긴 페이지 OCR부터 다중 페이지 메모리 QA에 이르는 애플리케이션을 구동합니다. 그러나 기존의 VTC 파이프라인은 렌더링과 레이아웃을 고정된, 콘텐츠와 무관한 전처리 단계로 취급하며, VLM이 시각화된 텍스트를 내부적으로 어떻게 처리하는지에 대한 기계적 이해를 거의 제공하지 못합니다. VTC QA 작업에 대한 집중적인 실증 연구를 통해, 우리는 VLM이 '활용 없는 국지화 (localization-without-utilization)' 체제를 보인다는 것을 밝혀냈습니다. 즉, 국지화 어텐션 (evidence-localizing attention)이 중간에서 후기 레이어 (middle-to-late layers)에서 급격히 나타나지만 정답 정확도와는 크게 분리되어 있다는 증거가 발견되었습니다. 하지만 렌더링된 페이지에서 국지화된 영역을 단순히 확대하는 것만으로도 실패 사례의 상당 부분을 복구할 수 있습니다. 이러한 관찰을 바탕으로, 우리는 AGAR (Attention-Guided Adaptive Rendering)를 제안합니다. 이는 학습이 필요 없고 모델에 구애받지 않는 (model-agnostic) 방법으로, VLM 자체의 중간-후기 레이어 어텐션을 활용하여 상위 K개의 중요한 시각적 패치 (visual patches)를 식별하고, 이를 단어 범위 (word spans)로 다시 매핑한 뒤, 해당 범위를 확대하여 페이지를 재렌더링하고 정답을 다시 추론합니다. 9개의 VTC 벤치마크 (단문, 긴 컨텍스트, 다중 페이지 메모리 QA)와 4개의 VLM 백본 (backbone)에 걸친 광범위한 실험을 통해, AGAR가 (i) 플러그 앤 플레이 (plug-and-play) 강화 도구로서 기존 VLM의 성능을 일관되게 향상시키고, (ii) VLM 사후 학습 (post-training)과 결합하여 추가적인 이득을 얻으며, (iii) 시각적 및 텍스트 측면의 입력 저하 상황 모두에서 견고함을 유지함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

중요한 것을 확대하기: 시각적 텍스트 이해를 위한 어텐션 가이드 적응형 렌더링 (Attention-Guided Adaptive

요약

핵심 포인트

댓글