오픈 모델로 OCR 파이프라인 성능 극대화
요약
비전-언어 모델(VLMs)의 발전으로 OCR 기술은 단순한 텍스트 변환을 넘어 문서 검색, 질문 답변 등 복잡한 영역으로 확장되었습니다. 최신 OCR 모델들은 손글씨, 다양한 스크립트, 수학 공식뿐만 아니라 표와 차트 같은 시각적 요소를 인식하고 이를 DocTags, HTML, Markdown 등의 구조화된 기계가 읽을 수 있는 형식으로 변환합니다. 사용 목적(디지털 재구성, LLM 입력/Q&A, 프로그램적 사용)에 따라 적절한 출력 형식을 가진 모델을 선택하는 것이 중요합니다.
핵심 포인트
- OCR은 VLM의 발전으로 단순 텍스트 추출을 넘어 문서 검색 및 QA 기능까지 수행할 수 있게 되었다.
- 최신 OCR 모델들은 손글씨, 다양한 스크립트, 표/차트 등 복잡한 시각적 요소를 인식하고 구조화된 데이터로 변환한다.
- 출력 형식(DocTags, HTML, Markdown, JSON)은 사용 목적에 따라 선택해야 하며, 각 형식은 고유의 장점을 가진다.
- 디지털 재구성이 목표라면 DocTags나 HTML 같은 레이아웃 보존 형식을, LLM 입력/Q&A가 목표라면 자연어에 가까운 마크다운과 이미지 캡션을 사용하는 것이 유리하다.
TL;DR: 강력한 비전-언어 모델 (Vision-Language Models) 의 등장으로 문서 AI (Document AI) 가 변모했습니다. 각 모델은 고유한 강점을 지니고 있어 올바른 선택이 어렵습니다. 오픈 웨이트 (Open-weight) 모델은 비용 효율성과 프라이버시 측면에서 더 나은 성능을 제공합니다. 시작을 돕기 위해 이 가이드를 준비했습니다.
이 가이드에서는 다음을 배웁니다:
- 현재 모델과 그들의 능력의 현황
- 모델을 세밀하게 조정 (fine-tune) 해야 할 때와 아웃 오브 더 박스 (out-of-the-box) 로 사용할 때
- 사용 사례에 맞는 모델을 선택할 때 고려해야 할 핵심 요소
- OCR 을 넘어 멀티모달 검색 (multimodal retrieval) 과 문서 질문 답변 (document QA) 으로 확장하는 방법
마침까지, 올바른 OCR 모델을 선택하고 이를 구축하며 문서 AI 에 대한 깊은 통찰력을 얻으실 것입니다. 시작해 보겠습니다!
- 오픈 모델로 OCR 파이프라인 성능 극대화
광학 문자 인식 (Optical Character Recognition, OCR) 은 컴퓨터 비전 분야에서 가장 초기이자 가장 오래된 과제 중 하나입니다. 많은 AI 의 초기 실용적 응용 프로그램은 인쇄된 텍스트를 디지털 형태로 변환하는 데 집중했습니다.
비전-언어 모델 (Vision-Language Models, VLMs) 의 급증으로 OCR 이 크게 발전했습니다. 최근에는 기존 VLM 을 세밀하게 조정하여 많은 OCR 모델이 개발되었습니다. 그러나 오늘의 능력은 OCR 을 훨씬 넘어섭니다: 쿼리로 문서를 검색하거나 해당 문서에 대해 직접 질문을 답변할 수 있습니다. 더 강력한 비전 기능 덕분에 이러한 모델은 저품질 스캔 처리, 표, 차트, 이미지와 같은 복잡한 요소 해석, 텍스트와 시각 정보를 융합하여 문서 전반에 걸쳐 열린 질문 (open-ended questions) 에 대한 답변을 수행할 수 있습니다.
최근 모델들은 텍스트를 기계 가 읽을 수 있는 형식으로 변환합니다.
입력은 다음을 포함할 수 있습니다:
- 손글씨 텍스트
- 라틴어, 아랍어, 일본어 문자와 같은 다양한 스크립트
- 수학식
- 화학 공식
- 이미지/레이아웃/페이지 번호 태그
OCR 모델은 HTML, 마크다운 (Markdown) 등 다양한 형식으로 이루어진 기계 가 읽을 수 있는 텍스트로 이를 변환합니다.
텍스트 외에도 일부 모델은 다음을 인식할 수도 있습니다:
- 이미지
- 차트
- 표
일부 모델은 문서 내부의 이미지 위치를 알고, 좌표를 추출하여 텍스트 사이에 적절히 삽입합니다. 다른 모델은 이미지에 캡션을 생성하고 해당 위치에 삽입합니다. 이는 기계 가 읽을 수 있는 출력을 LLM (Large Language Model) 에 입력할 때 특히 유용합니다. 예시 모델로는 AllenAI 의 OlmOCR 나 PaddlePaddle 의 PaddleOCR-VL 이 있습니다.
모델들은 DocTags, HTML 또는 마크다운과 같은 다른 기계 가 읽을 수 있는 출력 형식을 사용합니다 (다음 섹션 Output Formats 에서 설명됨). 모델이 표와 차트를 처리하는 방식은 사용하는 출력 형식에 따라 달라집니다. 일부 모델은 차트를 이미지처럼 취급하며 그대로 유지합니다. 다른 모델은 차트를 마크다운 테이블 또는 JSON 으로 변환합니다. 예를 들어, 막대 차트는 다음과 같이 변환될 수 있습니다.
표의 경우에도 마찬가지로, 셀은 제목과 열의 컨텍스트를 유지하면서 기계 가 읽을 수 있는 형식으로 변환됩니다.
다른 OCR 모델은 다른 출력 형식을 사용합니다. 간략히 말해, 현대 모델에서 일반적으로 사용되는 출력 형식은 다음과 같습니다.DocTag: DocTag 는 문서 위치, 텍스트 형식, 컴포넌트 수준 정보 등을 표현하는 XML 유사 형식입니다. 아래는 DocTags 로 파싱된 논문의 예시입니다. 이 형식은 오픈 Docling 모델에서 사용되고 있습니다.
HTML: HTML 은 문서를 파싱할 때 구조와 계층 정보를 적절히 인코딩하기 때문에 가장 인기 있는 출력 형식 중 하나입니다.Markdown: Markdown 은 인간 가 가장 읽기 쉬운 형식입니다. HTML 보다 단순하지만 표현력이 약합니다. 예를 들어, 분할된 열 테이블을 표현할 수 없습니다.JSON: JSON 은 모델이 전체 출력을 위한 형식이 아니지만, 표나 차트 정보를 표현하는 데 사용될 수 있습니다.
올바른 모델은 출력물을 어떻게 사용할 계획에 따라 달라집니다:
디지털 재구성 (Digital reconstruction): 디지털로 문서를 재구성하려면 레이아웃을 보존하는 형식을 가진 모델을 선택하세요 (예: DocTags 또는 HTML).LLM 입력 또는 Q&A: 사용 사례가 출력을 LLM 에 전달하는 경우, 마크다운과 이미지 캡션을 출력하는 모델을 선택하세요. 자연어에 더 가깝기 때문입니다.프로그램적 사용 (Programmatic use): 프로그램적으로 사용할 ...
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기