arXiv논문2026. 05. 25. 11:33

CVSearch: 고해상도 이미지 인식을 위한 인지적 시각 탐색을 통한 멀티모달 LLM 강화

요약

CVSearch는 고해상도 이미지 인식 시 발생하는 커버리지와 효율성 간의 트레이드오프를 해결하기 위한 적응형 프레임워크입니다. '평가 후 탐색' 워크플로우를 통해 전역 정보 부족 시 전문가 보조 탐색과 의미 인식 스캐닝을 동적으로 스케줄링합니다.

핵심 포인트

고해상도 이미지 인식을 위한 적응형 탐색 프레임워크 제안
의미론적 가이드 적응형 패칭을 통한 객체 파편화 완화
시각적 복잡도 기반의 동적 상향식 탐색 전략 도입
기존 방식 대비 탐색 효율성 및 SOTA 정확도 달성

고해상도 (High-resolution, HR) 이미지 인식은 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)의 핵심적인 병목 현상을 야기합니다. 시각적 탐색 (Visual search)이 유망한 해결책을 제공하지만, 기존 방식들은 커버리지 (Coverage)와 효율성 (Efficiency) 사이의 트레이드오프 (Trade-off) 문제로 어려움을 겪고 있습니다. 시각적 전문가 보조 탐색 (Visual expert-assisted search)은 효율적이지만 제안 (Proposals)이 실패할 경우 사각지대가 발생하기 쉽고, 반면 스캔 기반 탐색 (Scan-based search)은 계산적 중복 (Computational redundancy)과 의미론적 파편화 (Semantic fragmentation)를 대가로 커버리지를 보장합니다. 이러한 딜레마를 해결하기 위해, 우리는 '평가 후 탐색 (Assess-then-Search)' 워크플로우를 통해 탐색 전략을 동적으로 스케줄링하는 훈련이 필요 없는 적응형 프레임워크인 CVSearch를 소개합니다. 구체적으로, CVSearch는 전역 정보 (Global information)가 불충분할 때 먼저 전문가 보조 탐색을 호출하며, 실패 시에만 새로운 의미 인식 스캐닝 메커니즘 (Semantic-aware scanning mechanism)을 트리거합니다. 경직된 그리드 분할 (Grid partitioning)과 달리, 이 효율적인 스캐닝 패러다임은 의미론적으로 일관된 영역으로 이미지를 분해하는 의미론적 가이드 적응형 패칭 (Semantic Guided Adaptive Patching)을 통합하여 객체 파편화 (Object fragmentation)를 효과적으로 완화합니다. 나아가, 우리는 국소적 세부 사항 (Local details)에 대한 효율적이고 정밀한 반복 탐색을 가능하게 하기 위해 시각적 복잡도 (Visual Complexity) 사전 정보에 의해 구동되는 동적 상향식 탐색 (Dynamic Bottom-Up Search) 전략을 고안했습니다. HR 벤치마크에 대한 광범위한 실험을 통해 CVSearch가 탐색 효율성을 크게 향상시키면서도 최첨단 (State-of-the-art) 정확도를 달성함을 입증했습니다. 코드는 https://github.com/liliupeng28/ICML26-CVSearch 에서 공개되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CVSearch: 고해상도 이미지 인식을 위한 인지적 시각 탐색을 통한 멀티모달 LLM 강화

요약

핵심 포인트

댓글