olmOCR 를 충실한 OCR 엔진으로 미세 조정하기
요약
본 기사는 기존 OCR 엔진(olmOCR)이 헤더 및 푸터와 같은 레이아웃의 중요한 정보를 누락하는 문제를 다루고, 이 한계를 극복하기 위한 미세 조정 과정을 설명합니다. 저자들은 Qwen2.5-VL-72B-Instruct를 사용하여 8,000개의 문서 데이터셋으로 olmOCR을 재훈련시켰으며, 그 결과 헤더와 푸터의 중요한 정보까지 포함하여 포괄적인 정보 추출이 가능해졌음을 보여줍니다.
핵심 포인트
- 기존 OCR 엔진은 레이아웃이 복잡한 문서(헤더/푸터)에서 중요한 정보를 누락하는 경향이 있습니다.
- 문제 해결을 위해 Qwen2.5-VL-72B-Instruct를 활용하여 8,000개 데이터셋으로 olmOCR 모델을 미세 조정했습니다.
- 미세 조정된 모델은 헤더 및 푸터의 정보를 포함하여 문서 전체의 구조화된 정보를 충실하게 추출할 수 있습니다.
- 추론 시 'document anchoring' 프롬프트 전략을 사용하여 텍스트 블록과 위치 정보를 보존하는 것이 중요합니다.
이 예제에서 빨간색으로 표시된 헤더 및 푸터에 있는 중요한 정보는 olmOCR 에서 무시됩니다.
광학 문자 인식 (OCR) 은 다양한 비즈니스 사용 사례에 광범위한 응용 분야를 가지고 있습니다. 오랫동안, AI 기반 OCR 엔진의 주류 패러다임은 파이프라인 기반 시스템이었습니다. 이는 섹션 분할, 표 분석, 문자 인식 등 여러 머신 러닝 구성 요소가 연결되어 있습니다. 그러나 이 접근법의 근본적인 결함은 추출된 결과가 논리적 읽기 순서 (선형화) 에 부합하는 방식으로 문맥을 평탄화하지 않는다는 것입니다. 이는 다중 열 문서와 함께 떠다니는 다이어그램, 헤더, 푸터 등 레이아웃이 풍부한 문서에서 특히 도전적입니다. 최근 비전 언어 모델의 등장으로 많은 노력이 이 문제를 해결하기 위해 이를 대안 OCR 시스템으로 활용하는 데 쓰였습니다.
우리가 Hugging Face 에서 게시한 olmOCR 모델을 비즈니스 응용 분야 (예: 송장 분석) 에 테스트할 때, 헤더 및 푸터에 있는 중요한 정보 일관된 누락이 관찰되었습니다. 이는 예상되는 것으로, olmOCR 을 훈련하기 위해 사용된 데이터셋 (olmOCR-mix-0225) 은 이러한 영역의 불필요한 정보를 의도적으로 배제하여 자연스러운 읽기 흐름을 유지하기 때문입니다. 이러한 정보는 다음 토큰 예측의 문맥에서 의미 있게 예측할 수 없기 때문입니다.
이러한 한계를 해결하고 포괄적인 정보 추출을 가능하게 하기 위해, 우리는 Qwen2.5-VL-72B-Instruct 을 사용하여 8,000 개의 문서 데이터셋을 생성했습니다. 이는 신뢰할 수 있는 OCR 엔진에서 기대할 수 있는 모든 관련 정보를 포착합니다. 우리는 오픈 소스 olmOCR 훈련 파이프라인에 기반한 훈련 설정을 사용했으며, Nvidia 노드 8xH100 에서 총 2.5 에포크에 걸쳐 4 개의 그라디언트 누적 단계를 사용했습니다. 기본 하이퍼파라미터는 우리에게 잘 작동하여 자원 집약적 하이퍼파라미터 검색의 필요성을 제거했습니다. MlLflow 를 사용한 실험 추적은 다음과 같은 결과를 보였습니다:
평가에는 Qwen2.5-VL-72B-Instruct 으로도 획득한 헤더 및 푸터 정보를 포함하는 customized version 의 olmOCR-mix-0225 eval-datasets 을 사용했습니다.
훈련이 완료된 후, 모델을 테스트할 차례였습니다.
우리는 파싱 후 중요한 정보가 누락된 문서에 대한 질적 평가를 수행했습니다. 우리의 추론 설정은 olmOCR 의 것과 동일하며, 페이지에서 각 페이지의 원시 디지털 콘텐츠를 보존하는 document anchoring 이라는 특별한 프롬프트 전략을 사용합니다. 이 기법은 레이저화된 이미지와 함께 VLMs 에 텍스트 블록과 위치 정보를 추출합니다.
아래에는 원본 응답과 미세 조정 모델의 응답의 몇 가지 예시를 제공합니다. 우리는 중요한 누락된 정보를 빨간색으로 표시했습니다.
전반적으로, 이제 불필요한 데이터 포함 모든 정보가 추출되고 모델은 여전히 간단한 표를 분석할 수 있으므로 결과에 만족합니다. 주목할 점은 일부 예제에서 최종 출력의 품질이 다른 온도에 따라 크게 달라질 수 있다는 것입니다.
문서에서 구조화된 정보를 추출하는 데 OCR 은 필수적입니다. end-to-end-systems(종단내연 시스템) 과 같은 olmoOCR 의 콘텐츠를 선형화할 수 있는 능력은 전통적인 시스템에 비해 강력한 우위를 제공합니다. 우리가 미세 조정 (fine-tuning) 한 버전으로 이제 다양한 문서에서 헤더 및 푸터 섹션을 포함한 텍스트를 충실하게 추출할 수 있으며, 이는 인보이스 파싱과 같은 비즈니스 사용 사례에 필수적입니다. 우리는 이 빠르게 변화하는 분야에서 미래 모델이 어떻게 진화할지 궁금합니다. Allen Institute for AI(앨런 연구소) 의 모델, 데이터셋, 코드를 오픈 소스로 제공해 주셔서 특별한 감사를 표합니다.
만약 우리가 미세 조정 (fine-tuned) 한 olmoOCR 모델을 테스트해보고 싶다면, 우리는 HuggingFace 에서 이를 오픈 소스화했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기