arXiv논문2026. 06. 30. 11:05

OCR-VLMs는 데바나가리(Devanagari) 문자를 읽을 수 있는가? 스트레스 테스트 벤치마크 및 사후 교정 연구

요약

데바나가리 문자에 대한 OCR-VLMs의 성능을 벤치마킹하고 스트레스 테스트를 수행한 연구입니다. 합성 데이터와 실제 스캔본 간의 성능 격차를 분석하고, 특정 모델의 치명적 오류 패턴과 사후 교정 효과를 규명했습니다.

핵심 포인트

합성 텍스트 벤치마크는 실제 스캔본의 성능을 과도하게 높게 평가함
영어 OCR 성능이 인도 계열 문자 성능을 보장하지 않음
특화된 OCR-VLMs가 열화 조건에서 반복 오류 등 취약성을 보임
Gemini와 Claude가 데바나가리 OCR 성능에서 선두를 기록함
ByT5 기반 사후 교정기는 특정 엔진의 오류 개선에 효과적임

고전적인 엔진부터 특화된 OCR 시각-언어 모델 (OCR-VLMs) 및 최첨단 멀티모달 LLM (Large Language Models)에 이르는 OCR 시스템들은 영어 및 중국어 문서 벤치마크에서 강력한 결과를 보고하고 있지만, 인도 계열 문자 (Indic scripts)에 대한 동작은 대체로 규명되지 않은 상태입니다. 우리는 네 가지 합성 열화 조건 (synthetic degradation conditions)과 300개의 실제 인쇄 스캔본을 대상으로 데바나가리 (Devanagari, 힌디어)에 대해 10개의 시스템을 벤치마킹했습니다. 대상 시스템은 다음과 같습니다: 고전적인 EasyOCR; 오픈 VLM (Qwen2.5-VL-3B, Qwen3-VL-8B, olmOCR-7B); 특화된 OCR-VLMs (DeepSeek-OCR, Unlimited-OCR); 그리고 최첨단 폐쇄형 모델 (Gemini 2.5 Flash, Claude Opus 4.7, GPT-5.5, Mistral OCR). 우리는 네 가지 발견 사항을 보고합니다. 첫째, 깨끗하게 렌더링된 텍스트에서는 10개 시스템 모두 chrF++ 91에서 98 사이에 밀집되어 있어, 합성 텍스트로는 이들을 구분할 수 없습니다. 둘째, 열화 조건 하에서 특화된 OCR-VLMs가 가장 취약합니다. DeepSeek-OCR은 드물지만 치명적인 반복 오류 (참조 길이의 최대 71배 출력)를 겪으며, 이는 중앙값 (median)이 모든 시스템 중 가장 좋음에도 불구하고 코퍼스 평균 (corpus mean)을 망가뜨립니다. 이것이 우리가 평균 대신 중앙값과 치명적 오류율 (catastrophic-rate)을 보고하는 이유입니다. 셋째, 실제 스캔본에서는 10개 시스템 중 9개가 무너지고 (EasyOCR은 chrF++ 93.6에서 58.3으로 하락), 성능 범위가 76포인트에 걸쳐 넓게 퍼집니다. 따라서 합성 렌더링은 데바나가리 품질을 심각하게 과장합니다. 넷째, 강력한 영어 OCR 성능이 인도 계열 OCR 성능을 예측하지 못합니다. GPT-5.5는 chrF++ 58.5로 하락하여 (고전적인 EasyOCR과 동등) olmOCR-Bench의 기반 모델인 olmOCR-7B는 40.5로 떨어지는 반면, 오픈 모델인 Qwen3-VL-8B (75.2, 단일 24 GB GPU에서 실행 가능)는 GPT-5.5를 능가하고 Mistral에 근접합니다. Gemini와 Claude는 각각 86.3과 82.2로 선두를 달립니다. 오류 분류 체계 (error taxonomy)는 표면적 오류 (숫자, 문장 부호)와 구조적 오류 (결합 자음, 마트라, 누크타)를 구분하며, 바이트 수준 (ByT5) 사후 교정기 (post-corrector)는 저가형 엔진의 자체 오류 분포를 개선하지만 (chrF++ +1.2에서 +1.5), 다른 엔진으로 전이되지는 않습니다. 우리는 벤치마크, 코드 및 모델을 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

OCR-VLMs는 데바나가리(Devanagari) 문자를 읽을 수 있는가? 스트레스 테스트 벤치마크 및 사후 교정 연구

요약

핵심 포인트

댓글