
맨해튼의 변호사가 500페이지 분량의 계약서를 받았습니다. 모든 조항을 검색할 수 있어야 합니다. 수작업 시: 일주일 소요.
요약
MinerU는 PDF, Word, 이미지 등 다양한 문서에서 텍스트, 표, 수식을 정확하게 추출하는 오픈 소스 도구입니다. 다단 레이아웃과 OCR을 지원하며, 추출된 데이터를 Markdown 형식으로 변환하여 AI 에이전트 및 RAG 워크플로우에 즉시 활용할 수 있습니다.
핵심 포인트
- 다단 레이아웃, 수식(LaTeX), 표 구조를 완벽하게 보존하며 추출
- CLI, Python SDK, 웹 앱을 통해 다양한 방식으로 사용 가능
- Claude, Cursor, LangChain 등 주요 AI 도구와 연동 지원
- 오픈 소스(Apache 2.0)로 비용 부담 없이 로컬 환경에서 실행 가능
맨해튼의 변호사가 500페이지 분량의 계약서를 받았습니다. 모든 조항을 검색할 수 있어야 합니다. 수작업 시: 일주일 소요.
시카고의 회계사가 200개의 스캔된 송장을 받았습니다. 모든 숫자가 스프레드시트(Spreadsheet)에 입력되어야 합니다. 수작업 시: 4일 소요.
Stanford의 연구원이 50개의 학술 논문을 가지고 있습니다. PDF 내부에 표, 공식, 차트가 잠겨 있습니다. 수작업 시: 2주 소요.
이들 모두가 복사해서 붙여넣기(Copy-paste)를 하느라 인생의 며칠을 허비하고 있습니다.
이제 MinerU를 만나보세요.
어떤 PDF, Word 문서, PowerPoint, Excel 시트 또는 스캔된 이미지도 읽을 수 있는 무료 오픈 소스(Open source) 도구입니다. 읽기 순서에 따라 텍스트를 추출합니다. 표는 깔끔한 HTML이 됩니다. 수식은 LaTeX가 됩니다. 필기체도 처리합니다. 109개 언어를 지원합니다.
200페이지짜리 PDF를 입력하면, 90초 만에 깔끔한 Markdown을 돌려받습니다.
다른 모든 PDF 도구와 차별화되는 점:
- 다단 레이아웃 (Multi-column layouts). 페이지 전체를 왼쪽에서 오른쪽으로 읽는 것이 아니라, 각 단(column) 내에서 위에서 아래로 읽습니다. 사람이 읽는 방식과 같습니다.
- 스캔된 문서. OCR(광학 문자 인식)이 내장되어 있습니다. 1995년에 인쇄된 페이지 사진을 대상으로 지정하면 깔끔한 텍스트를 돌려받습니다.
- 수학 공식. LaTeX 수준의 인식률을 자랑합니다. 모든 방정식이 올바르게 렌더링됩니다.
- 표. 병합된 셀, 다중 행 헤더, 3페이지에 걸쳐 있는 표까지 모두 보존됩니다.
- 만 페이지 분량의 문서. 슬라이딩 윈도우(Sliding window) 처리 방식을 사용합니다. 수동으로 분할할 필요가 없습니다.
- 배치 모드 (Batch mode). 500개의 문서가 담긴 폴더를 지정하고 자리를 비우면 됩니다.
사용하는 세 가지 방법:
- CLI. 문서당 하나의 명령어를 사용합니다.
- Python SDK. 단 다섯 줄의 코드로 가능합니다.
- https://t.co/AIC2NNey41 의 웹 앱. 업로드하고, 클릭하고, 다운로드하세요. 설치가 필요 없습니다.
Claude Desktop, Cursor, Windsurf, LangChain, LlamaIndex, RAGFlow, Dify, 그리고 FastGPT에 연결할 수 있습니다. 추출된 문서를 AI 에이전트(AI agent)에 바로 공급하세요.
비하인드 스토리:
Shanghai AI Laboratory의 OpenDataLab 팀은 언어 모델(Language model)을 학습시키기 위해 수백만 개의 과학 문서에서 깔끔한 텍스트를 추출해야 했습니다. 기존 도구들은 실패했습니다. 그래서 그들은 직접 만들었습니다. 그리고 그것을 오픈 소스로 공개했습니다.
68,551개의 스타(Stars). Apache 2.0을 기반으로 구축된 MinerU 오픈 소스 라이선스(Open Source License). 개인 및 상업적 용도로 무료로 사용할 수 있습니다. arXiv에 세 개의 기술 보고서가 게시되어 있습니다.
Adobe Acrobat Pro는 연간 $239.88를 청구합니다. 하지만 여전히 표(tables)를 유실합니다.
ABBYY FineReader Corporate는 연간 $165를 청구합니다. 하지만 여전히 수식(equations)을 처리하지 못합니다.
Mistral OCR은 1,000페이지당 $2를 청구합니다. 청구서가 끝없이 늘어납니다.
MinerU는 비용이 $0입니다. 당신의 노트북에서 실행됩니다. 당신의 문서가 기기를 떠나지 않습니다.
놀라운 점은 바로 이것입니다.
변호사는 4분 만에 계약서를 돌려받았습니다. 모든 조항을 검색할 수 있습니다.
회계사는 200개의 송장(invoices)을 입력했습니다. 모든 숫자가 12분 만에 스프레드시트(spreadsheet)에 입력되었습니다.
연구원은 50편의 논문을 입력했습니다. 그는 일요일 오후에 문헌 검토(literature review)를 작성했습니다.
당신의 회사가 수년 동안 수작업으로 처리해 온 문서를 MinerU는 단 몇 분 만에 처리합니다.
당신의 문서는 텍스트가 됩니다. 당신의 텍스트는 데이터가 됩니다. 당신의 데이터는 정답이 됩니다.
서류 작업 때문에 허비했던 일주일이 다시 당신의 손으로 돌아옵니다.
[IMG:1]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @heynavtoor (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기