arXiv논문2026. 06. 25. 12:19

OCR-Reasoning은 얼마나 견고한가? 시각적 섭동(Visual Perturbations) 하에서의 시각-언어

요약

시각-언어 모델(VLM)의 OCR 추론 견고성을 평가하기 위한 새로운 벤치마크인 OCR-Robust를 제안합니다. 시각적 섭동이 OCR 성능과 추론에 미치는 영향을 체계적으로 분석하여 모델의 취약점을 규명합니다.

핵심 포인트

OCR 추론의 견고성을 평가하는 OCR-Robust 벤치마크 소개
문서, 장면 텍스트, 차트, 표 등 다양한 데이터셋 포함
높은 정확도가 반드시 시각적 손상에 대한 견고성을 보장하지 않음
차트와 표가 일반 문서보다 시각적 섭동에 더 취약함을 확인

시각-언어 모델 (Vision-language models, VLMs)은 OCR 기반 벤치마크에서 강력한 성능을 달성하였으며 텍스트가 풍부한 이해 (text-rich understanding)에 점점 더 집중하고 있지만, 통제된 시각적 저하 (visual degradation) 상황에서의 견고성 (robustness)은 여전히 충분히 이해되지 않은 상태로 남아 있습니다. 이러한 격차는 OCR 추론 (OCR reasoning)에 있어 매우 치명적인데, 시각적 손상 (visual corruption)이 OCR 오류와 구조적 왜곡을 유발하여 추론 작업에 불확실성을 도입할 수 있기 때문입니다. 이 문제를 체계적으로 연구하기 위해, 우리는 시각적 섭동 (visual perturbations) 하에서의 OCR 추론 견고성을 평가하기 위해 설계된 벤치마크인 OCR-Robust를 소개합니다. 이는 두 가지 상호 보완적인 서브셋을 포함하는 812개의 샘플로 구성됩니다: 문서, 장면 텍스트 (scene text), 영수증, 필기 및 수학적 내용을 다루는 OCR1.0, 그리고 차트, 기하학 도표 및 표에 집중하는 OCR2.0입니다. 효율적이면서도 정보가 풍부한 평가를 가능하게 하기 위해, 우리는 18개의 후보 섭동 (perturbations)에 대해 파일럿 연구를 수행하였으며, 그 영향력과 모델 간 변별력을 바탕으로 각각 3가지 심각도 수준을 가진 5가지 대표 유형을 선정했습니다. 우리는 깨끗한 정확도 (clean accuracy), 상대적 손상 유지율 (Relative Corruption Retention, RCR), 최악의 경우 유지율 (Worst-Case Retention, WCR), 그리고 복합 손상 견고성 지수 (Corruption Robustness Index, CRI)를 사용하여 견고성을 평가하였으며, 독점 시스템 (proprietary systems), 오픈 소스 VLMs, 그리고 OCR+LLM 파이프라인을 아우르는 18개의 모델을 벤치마킹했습니다. 우리의 결과는 높은 깨끗한 정확도가 반드시 더 강력한 견고성을 의미하지는 않는다는 것과, 모델들이 구조에 민감한 OCR 작업에서 최악의 경우 현저한 성능 저하를 겪을 수 있으며, 차트와 표가 섭동 하에서 문서 형태의 입력보다 실질적으로 더 취약하다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

OCR-Reasoning은 얼마나 견고한가? 시각적 섭동(Visual Perturbations) 하에서의 시각-언어

요약

핵심 포인트

댓글