
OCR 페이지 수준 분석 결과의 후처리를 통한 문서 수준 의미 트리 구조 구축 및 구조화된 문서 분석 품질 향상
요약
MinerU-Popo는 4B 파라미터 규모의 경량 OCR 후처리 모델로, 페이지 단위의 OCR 결과를 문서 수준의 의미 트리 구조로 재구성합니다. 이를 통해 표나 텍스트 잘림, 계층 구조 오류 등을 해결하여 구조화된 문서 분석 품질을 크게 향상시킵니다.
핵심 포인트
- 4B 파라미터 경량 모델을 통한 OCR 후처리 수행
- 문서 트리 구축으로 표 및 텍스트 잘림 문제 해결
- TEDS 점수를 53.7에서 90.6으로 대폭 향상
- 논문, 모델, 데이터셋 전체 오픈 소스 공개
OCR 페이지 수준 분석 결과에 대해 후처리를 수행하여, 문서 수준의 의미 트리 (Semantic Tree) 구조를 구축함으로써 구조화된 문서 분석 (Structured Document Parsing)의 품질을 향상시킵니다.
https://
github.com/opendatalab/MinerU-Popo
...
MinerU-Popo는 4B 파라미터를 가진 경량 OCR 후처리 모델로, 페이지 수준의 OCR 출력을 문서 트리 (Document Tree)로 재정리할 수 있습니다. 이는 표 잘림 (Table Truncation), 텍스트 잘림 (Text Truncation), 제목 계층 (Heading Hierarchy) 및 그림-텍스트 연관성 (Image-Text Association) 문제를 처리합니다.
데이터 엔진 (Data Engine), 동적 청킹 (Dynamic Chunking) 및 문서 풍부화 (Document Enrichment)를 통해 페이지 간 불연속성, 중복 분석 및 긴 문서 문제를 해결합니다. MinerU에서 TEDS 점수가 53.7에서 90.6으로 상승하여 매우 뚜렷한 효과를 보였습니다. 논문, 모델 및 데이터셋은 모두 오픈 소스로 공개되었습니다.
AI 가이드 대화를 통해 모호한 비디오 개념을 초 단위의 정밀한 스토리보드 스크립트로 단계별로 세분화합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @qingq77 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기