Show HN: 자동화에 초점을 맞춘 OCR 벤치마크 (OCR Benchmark Focusing on Automation)

서론 (Introduction)

새로운 시장 진입자들이 연달아 제품을 출시함에 따라 OCR (Optical Character Recognition, 광학 문자 인식) 문서 처리 분야에 대한 관심이 크게 높아졌습니다. 가장 최근의 사례로는 Mistral이 기존 플레이어들보다 더 저렴하고 정확하다고 주장하며 OCR 모델을 출시한 것과, Andrew NG가 에이전트 기반 문서 추출 (agentic document extraction) 제품을 출시한 것이 있습니다. 하지만 많은 기업이 타당한 주장과 과장된 주장을 구분하는 데 어려움을 겪고 있습니다. 너무 많은 신규 출시 제품들로 인해, 실제 운영 수준 (production-level)의 요구 사항을 진정으로 충족하는 솔루션을 식별하는 것이 어려울 수 있습니다.

벤치마크가 중요한 이유 (Why Benchmarks Matter)

벤치마크는 솔루션을 비교하고 평가할 수 있는 구조화된 방법을 제공하여, 기업이 부적합한 옵션을 걸러내고, 자신들의 데이터 및 운영 요구 사항에 부합하는 도구를 식별하며, 검토해야 할 제품 수를 줄임으로써 검증 과정을 간소화할 수 있도록 돕습니다. 그러나 가치 있는 벤치마크는 조직의 실제 현실적인 과제와 일치해야 합니다. 주요 고려 사항은 다음과 같습니다:

데이터셋 관련성 (Dataset Relevance): 벤치마크 데이터셋이 송장 (invoices), 영수증 (receipts), 또는 계약서 (contracts)와 같이 귀하가 다루는 문서 유형을 반영하고 있습니까? 언어, 형식 (스캔된 PDF vs 디지털 PDF), 길이, 그리고 실제 환경의 불완전함과 같은 요인들을 고려하고 있습니까?

작업 완결성 (Task Completeness): 벤치마크가 문서 추출 프로세스의 모든 단계를 평가합니까? 구조화된 데이터 추출, OCR 수행, 또는 기업 전반의 검색 기능 활성화 등 귀하의 목표와 일치합니까?

현재 벤치마크의 한계 (Limitations in Current Benchmarks)

| |
| CC-OCR | 7,058 | ✓ | ✓ | |
| OCRBench | 1,000 | ✓ | ✓ | | |
| DocILE Test Set | 1,000 | | ✓ | | |
| ... |

우리는 몇 가지 인기 있는 문서 처리 벤치마크를 검토했습니다. 각 벤치마크는 문서 처리의 특정 측면을 다룹니다:

OCR (Optical Character Recognition, 광학 문자 인식): 이미지나 스캔된 문서를 구조화되지 않은 기계 판독 가능 텍스트로 변환합니다. 핵심 정보 추출 (Key Information Extraction): 문서에서 특정 데이터 필드(예: 이름, 날짜, 금액)를 식별하고 추출합니다. Markdown 생성 (Markdown Generation): 추출된 텍스트를 가독성과 처리 용이성을 위해 구조화된 Markdown 형식으로 포맷팅합니다.

하지만 이러한 벤치마크 중 어느 것도 수동 개입을 최소화하는 **자동화 (automation)**에 초점을 맞추고 있지는 않습니다.

자동화 벤치마킹 (Benchmarking Automation)

자동화는 모델의 예측에 대한 확신도를 나타내는 신뢰도 점수 (confidence scores)를 사용하여 벤치마킹할 수 있습니다. 신뢰도 임계값 (confidence thresholds)을 설정함으로써, 인간의 개입 없이 모델이 정확하게 처리할 수 있는 데이터의 비율을 측정할 수 있습니다. 이 접근 방식은 자동화 능력 측면에서 서로 다른 모델의 성능을 객관적으로 비교하는 데 도움이 됩니다. 이 벤치마킹 프로세스를 재현하기 위한 코드는 GitHub에 공개되어 있습니다.

데이터셋 (Dataset)

우리는 송장 (invoices), 영수증 (receipts), 여권 (passports), 은행 명세서 (bank statements)와 같은 일반적인 문서 유형이 포함된 오픈 소스 데이터셋에서 1,000개의 이미지를 수집했습니다. 구조화된 데이터의 정확한 정답 (ground truths)을 만드는 것은 비용이 많이 들지만 벤치마크의 무결성을 유지하는 데 필수적입니다. 우리는 16,639개의 데이터 포인트를 주석 처리(annotated)하여 Hugging Face에 공개적으로 공유했습니다.

방법론 (Methodology)

무엇을 수동으로 검토해야 하고 무엇을 신뢰할 수 있는지 알기 위해서는 신뢰도 점수가 필수적입니다. Nanonets는 신뢰도 점수를 기본적으로 지원하여 직접적인 정밀도 (precision) 보고가 가능합니다. 범용 LLM (Large Language Models)은 신뢰도 점수를 기본적으로 제공하지 않으므로, 우리는 다음과 같은 방법을 사용하여 신뢰도 점수를 추정합니다:

Logits: 예측의 원시 로짓 (raw logits)에서 유도된 신뢰도.
일관성 (Consistency): LLM에 반복적인 쿼리를 보내 응답의 일관성을 평가.
수치형 (Numeric): LLM에 수치 형태의 신뢰도 추정치를 요청.
이진형 (Binary): LLM에 이진 형태의 신뢰도 추정치 (높음/낮음)를 요청.

결과 (Results)

대부분의 LLM은 98% 정밀도 (Precision)에서 어떠한 자동화도 달성하지 못합니다. 90% 정밀도에서는 결과가 더 나아지지만, 90% 정밀도는 인간의 업무를 자동화하기에 충분하지 않습니다. 각 방법론에 대한 상세한 결과는 아래와 같습니다.

범용 LLM (General purpose LLMs)은 전반적인 정확도 (Accuracy) 면에서는 우수한 성능을 보이지만, 신뢰할 수 있는 신뢰도 점수 (Confidence scores)를 제공하는 데 어려움을 겪습니다.
Gemini 2.0 Flash는 98% 정밀도에 도달한 유일한 범용 LLM이었으나, 데이터의 8%만을 자동화할 수 있었습니다.
OpenAI의 GPT4o와 Claude Sonnet은 95% 정밀도에 도달하지 못했습니다.

기업을 위한 시사점 (Implications for Enterprises)

문서 처리 자동화를 원하는 기업에는 단순한 원시 정확도 (Raw accuracy) 이상의 것이 필요합니다. 신뢰할 수 있는 신뢰도 점수가 없다면, 각 예측 결과는 여전히 인간의 검토를 요구하게 됩니다. 본 벤치마크는 "98% 정밀도에서의 자동화"를 강조함으로써, 수작업을 진정으로 줄일 수 있는 솔루션을 식별하는 것을 목표로 합니다.

이 벤치마크의 미래 (Future of this Benchmark)

우리는 더 많은 문서 유형을 포함하고 추가적인 신뢰도 추정 (Confidence estimation) 방법론을 탐색함으로써 이 벤치마크를 확장할 계획입니다. 더 자세히 알고 싶거나 새로운 데이터 카테고리를 제안하려면 다음으로 문의해 주세요.

research@nanonets.com