MinerU — LLM · RAG · Agent 워크플로우를 위한 고정밀 문서 파싱 엔진 - Insights | Molayo

MinerU — LLM · RAG · Agent 워크플로우를 위한 고정밀 문서 파싱 엔진

PDF · DOCX · PPTX · XLSX · 이미지 · 웹 페이지를 구조화된 Markdown / JSON으로 변환 · VLM+OCR 듀얼 엔진 · 109개 언어 지원 · MCP Server · LangChain / Dify / FastGPT 네이티브 통합 · 10개 이상의 국내 AI 칩 지원

🔍 핵심 파싱 능력 (Core Parsing Capabilities)

DOCX, PPTX, XLSX 파싱 네이티브 지원 - 수식 → LaTeX · 표 → HTML, 정확한 레이아웃 재구성
스캔된 문서, 필기체, 다단 레이아웃, 페이지 간 표 병합 지원
헤더/푸터 자동 제거를 통해 인간의 읽기 순서를 따르는 출력
VLM + OCR 듀얼 엔진, 109개 언어 OCR 인식

🔌 통합 (Integration)

사용 사례	솔루션
AI 코딩 도구	MCP Server — Cursor · Claude Desktop · Windsurf
...

🖥️ 배포 (Deployment) (프라이빗 · 완전 오프라인)

추론 백엔드 (Inference Backend)	최적 용도
pipeline	빠르고 안정적이며 환각(hallucination)이 없고, CPU 또는 GPU에서 실행 가능
...

국내 AI 칩: Ascend · Cambricon · Enflame · MetaX · Moore Threads · Kunlunxin · Iluvatar · Hygon · Biren · T-Head

2026/04/18 3.1.0 출시

이번 릴리스는

라이선스 개방성, 파싱 정확도, 그리고 전체 포맷 네이티브 지원에 집중합니다. 주요 업데이트는 다음과 같습니다:

라이선스 업그레이드
- MinerU는 공식적으로 AGPLv3에서 Apache 2.0을 기반으로 한 커스텀 라이선스인 MinerU 오픈 소스 라이선스로 전환되었습니다. - 이러한 변경은 커뮤니티 사용자 및 상업적 배포 모두의 도입 마찰을 크게 줄여, MinerU를 실제 워크플로우에 더 쉽게 통합할 수 있도록 합니다.
VLM 메인 모델 업그레이드
- 기본 VLM 모델이 MinerU2.5-Pro-2604-1.2B로 업그레이드되어, 전반적인 파싱 정확도를 최첨단(state-of-the-art) 수준으로 끌어올렸습니다. - 새 모델은 이제 이미지 및 차트 파싱, 잘린 단락 병합, 페이지 간 표 병합, 표 내부의 이미지 인식을 지원하여 복잡한 문서 레이아웃에서의 성능을 더욱 강화했습니다.
주요 VLM (Vision Language Model) 모델이 업그레이드되었습니다.
전체 형식의 네이티브 파싱 (Native parsing) 지원
네이티브 파싱 지원이 이제 PPTX 및 XLSX까지 확장되었습니다.
MinerU는 이제 이미지, PDF, DOCX, PPTX, XLSX 전반에 걸친 파싱을 완전히 지원하여, 더욱 완벽한 다중 형식 문서 이해 워크플로우 (multi-format document understanding workflow)를 제공합니다.
네이티브 파싱 지원이 이제 확장되었습니다.

3.1.0 릴리스와 함께 MinerU는 더욱 개방적이고, 더욱 정확하며, 프로덕션 (production) 환경에서 도입하기 더 쉬워졌습니다. 새로운 라이선스는 커뮤니티와 상업적 이용 모두의 장벽을 낮추었으며, MinerU2.5-Pro-2604-1.2B는 복잡한 콘텐츠에 대한 파싱 품질을 향상시켰고, 네이티브 PPTX / XLSX 지원은 주요 문서 형식에 대한 엔드 투 엔드 (end-to-end) 커버리지를 완성했습니다.

라이선스 업그레이드

2026/03/29 3.0.0 출시

이번 릴리스는 파싱 능력, 시스템 아키텍처, 그리고 엔지니어링 사용성을 중심으로 한 체계적인 업그레이드를 제공합니다. 주요 업데이트 내용은 다음과 같습니다:

네이티브 DOCX 파싱
네이티브 DOCX 파싱을 공식 지원하여 환각 (hallucination) 없는 고정밀 결과를 제공합니다. - DOCX를 먼저 PDF로 변환한 후 파싱하는 기존 워크플로우와 비교했을 때, 엔드 투 엔드 속도가 수십 배 향상되어 정확도와 처리량 (throughput) 모두에 높은 요구사항이 있는 시나리오에 더 적합합니다.
네이티브 pipeline 백엔드 업그레이드 공식 지원
pipeline 백엔드는 OmniDocBench (v1.5)에서 86.2 점을 기록하며, 이전 세대의 주류 VLM인 MinerU2.0-2505-0.9B의 정확도를 넘어섰습니다. - 표 내부의 이미지/수식 파싱, 직인 텍스트 인식, 세로 쓰기 지원, 행간 수식 번호 인식을 추가하여 복잡한 문서 시나리오에 대한 파싱 품질을 지속적으로 개선했습니다.
높은 정확도를 유지하면서도 자원 사용량을 극도로 낮게 유지하며, 순수 CPU 환경에서의 추론 (inference)을 계속 지원합니다.
API / CLI / Router 오케스트레이션 (orchestration) 업그레이드
mineru는 이제 mineru-api를 기반으로 하는 오케스트레이션 클라이언트로 실행됩니다; --api-url 사용 시

사용되지 않을 경우, 로컬 임시 서비스가 자동으로 시작됩니다. mineru-api는 작업 제출, 상태 조회 및 결과 조회를 지원하는 새로운 비동기 작업 엔드포인트인 POST /tasks를 추가했습니다. 동시에 기존 플러그인과의 호환성을 위해 동기식 파싱 (Parsing) 엔드포인트인 POST /file_parse를 유지합니다.

여러 서비스 및 여러 GPU에 걸친 통합 진입점 배포와 작업 라우팅 (Routing)을 위해 설계된 mineru-router가 추가되었습니다. 이 인터페이스는 mineru-api와 완전히 호환되며 자동 작업 부하 분산 (Load Balancing)을 지원합니다.
배포 및 사용성 개선
torch >= 2.8과의 호환성 문제를 해결했습니다. 베이스 이미지 (Base Image)가 vllm0.11.2 + torch2.9.0으로 업그레이드되어, 서로 다른 연산 능력 (Compute Capabilities) 간의 설치 경로를 통일했습니다.
슬라이딩 윈도우 (Sliding-window) 메커니즘을 통해 파싱 파이프라인 (Parsing Pipeline)을 최적화하여, 긴 문서 시나리오에서의 피크 메모리 (Peak Memory) 사용량을 크게 줄였습니다. 이제 수만 페이지에 달하는 문서도 수동으로 분할할 필요가 없습니다.
pipeline에서의 배치 추론 (Batch Inference)이 이제 디스크로의 스트리밍 쓰기 (Streaming Writes)를 지원하여, 완료된 파싱 결과를 제때 기록할 수 있게 되었으며, 장시간 실행되는 작업의 경험을 더욱 향상시켰습니다.
스레드 안전성 (Thread-safety) 최적화를 완료하여 이제 멀티스레드 동시 추론 (Multi-threaded Concurrent Inference)을 완전히 지원합니다. mineru-router와 결합하여 원클릭 멀티 GPU 배포가 가능하며, 고동시성 (High-concurrency), 고처리량 (High-throughput) 파싱 시스템을 쉽게 구축할 수 있습니다.
두 개의 AGPLv3 모델 (doclayoutyolo 및 mfd_yolov8)과 한 개의 CC-BY-NC-SA 4.0 모델 (layoutreader)의 사용을 완전히 제거했습니다.
다음과의 호환성 문제를 해결했습니다:

이번 업데이트는 단순한 기능 향상의 집합이 아니라, MinerU의 전반적인 시스템 역량에 있어 중요한 도약을 의미합니다. 우리는 특히 긴 문서 파싱 (Long-document parsing) 시 발생하는 피크 메모리 사용량 문제를 해결했습니다. 슬라이딩 윈도우 (Sliding windows) 및 디스크 스트리밍 쓰기 (Streaming writes to disk)와 같은 최적화를 통해, 초장문 문서 파싱은 "수동으로 분할하고 주의 깊게 처리해야 하는 단계"에서 "안정적이고 확장 가능하며 프로덕션 워크로드 (Production workloads)에 즉시 투입 가능한 단계"로 진화했습니다. 동시에 스레드 안전성 (Thread-safety) 최적화를 완료하고 멀티스레드 병렬 추론 (Multi-threaded concurrent inference)을 완전히 활성화하여, 단일 머신의 자원 활용도와 고동시성 (High-concurrency) 워크로드 하에서의 런타임 안정성을 더욱 향상시켰습니다. 이에 더해, mineru-router와 새로운 API / CLI 오케스트레이션 (Orchestration) 프레임워크를 통해 MinerU는 이제 원클릭 멀티 GPU 배포, 여러 서비스에 걸친 통합 액세스, 자동 작업 부하 분산 (Load balancing)을 지원하며 대규모 배포의 난이도를 크게 낮추었습니다. 결과적으로 MinerU는 독립적인 데이터 생성 도구에서 고동시성 및 고처리량 (High-throughput) 시나리오를 위한 대규모 문서 파싱 기반으로 진화하고 있으며, 더욱 안정적이고 효율적이며 확장이 용이한 인프라를 통해 엔터프라이즈급 문서 데이터 처리를 제공합니다. - Native

📝 더 많은 과거 버전 정보를 확인하려면 전체 변경 로그 (Changelog)를 확인하세요.

MinerU는 PDF, 이미지, DOCX, PPTX, XLSX 입력을 다운스트림 검색 (Retrieval), 추출 (Extraction) 및 처리를 위한 Markdown 및 JSON과 같은 기계 판독 가능 형식으로 변환하는 문서 파싱 도구입니다.
MinerU는 InternLM의 사전 학습 (Pre-training) 과정 중에 탄생했습니다. 우리는 과학 문헌의 기호 변환 문제를 해결하는 데 집중하고 있으며, 대규모 모델 시대의 기술 발전에 기여하기를 희망합니다.
유명한 상용 제품들과 비교했을 때 MinerU는 아직 초기 단계입니다. 만약 문제를 발견하거나 결과가 예상과 다르다면, 이슈 (Issue)에 이슈를 제출해 주시고 관련 문서나 샘플 파일을 첨부해 주세요.

pdf_zh_cn.mp4

PDF 지원

, image, DOCX, PPTX, 그리고 XLSX 입력.

헤더(headers), 푸터(footers), 각주(footnotes), 페이지 번호 등을 제거하여 의미론적 일관성(semantic coherence)을 보장합니다.
단일 열(single-column), 다중 열(multi-column) 및 복잡한 레이아웃에 적합하도록 사람이 읽기 쉬운 순서로 텍스트를 출력합니다.
제목(headings), 단락(paragraphs), 리스트(lists) 등을 포함한 원본 문서의 구조를 보존합니다.
이미지, 이미지 설명, 표(tables), 표 제목 및 각주를 추출합니다.
문서 내의 수식을 자동으로 인식하여 LaTeX 형식으로 변환합니다.
문서 내의 표를 자동으로 인식하여 HTML 형식으로 변환합니다.
스캔된 PDF 및 글자가 깨진 PDF를 자동으로 감지하고 OCR 기능을 활성화합니다.
OCR은 109개 언어의 감지 및 인식을 지원합니다.
멀티모달(multimodal) 및 NLP Markdown, 읽기 순서로 정렬된 JSON, 풍부한 중간 형식(rich intermediate formats) 등 다양한 출력 형식을 지원합니다.
출력 품질을 효율적으로 확인할 수 있도록 레이아웃 시각화(layout visualization) 및 스팬 시각화(span visualization)를 포함한 다양한 시각화 결과를 지원합니다.
로컬 오케스트레이션(orchestration) 및 다중 서비스 배포를 위해 CLI, FastAPI, Gradio WebUI가 내장되어 있습니다.
순수 CPU 환경에서의 실행을 지원하며, GPU/MPS 가속도 지원합니다.
Windows, Linux 및 Mac 플랫폼과 호환됩니다.

문서 파싱(Document parsing)은 어렵고 복잡한 작업입니다. 복잡한 레이아웃, 스캔된 페이지, 필기 내용과 같은 시나리오에서는 파싱 결과가 기대에 미치지 못할 수 있습니다. 실제 필요에 따라 적절한 배포 방법을 선택하기 전에, 먼저 온라인 데모를 사용하여 MinerU의 파싱 품질과 적합성을 평가해 보시는 것을 권장합니다.
파싱 결과가 만족스럽지 않은 문서 샘플이 있다면, 언제든지 이슈(issue)에 공유해 주세요. 파싱 능력을 지속적으로 개선해 나가겠습니다.
설치 관련 문제를 겪고 계신다면, 먼저 FAQ를 참조해 주세요.

공식 온라인 버전은 클라이언트와 동일한 기능을 제공하며, 아름다운 인터페이스와 풍부한 기능을 갖추고 있으나 사용을 위해서는 로그인이 필요합니다.

Gradio를 기반으로 개발된 WebUI로, 간단한 인터페이스와 핵심 파싱 기능만 제공하며 로그인이 필요하지 않습니다.

경고

사전 설치 공지—하드웨어 및 소프트웨어 환경 지원

프로젝트의 안정성과 신뢰성을 보장하기 위해, 개발 과정 중 특정 하드웨어 및 소프트웨어 환경에 대해서만 최적화하고 테스트합니다. 이는 권장되는 시스템 구성을 사용하여 프로젝트를 배포하고 실행하는 사용자가 최소한의 호환성 문제로 최고의 성능을 얻도록 보장합니다.

자원을 메인라인(mainline) 환경에 집중함으로써, 저희 팀은 잠재적인 버그를 보다 효율적으로 해결하고 새로운 기능을 개발할 수 있습니다.

비메인라인 환경에서는 하드웨어 및 소프트웨어 구성의 다양성뿐만 아니라 서드파티 종속성 호환성 문제로 인해 프로젝트 가용성을 100% 보장할 수 없습니다. 따라서, 비권장 환경에서 이 프로젝트를 사용하려는 사용자께서는 먼저 문서를 주의 깊게 읽고 FAQ를 확인하실 것을 권장합니다. 대부분의 문제는 이미 FAQ에 해당 해결책이 있습니다. 또한 커뮤니티 피드백을 통해 지원 범위를 점진적으로 확장하는 데 도움을 주시기를 바랍니다.

파싱 백엔드 (Parsing Backend)	파이프라인 (pipeline)	“-auto-engine”	“-http-client”
hybrid	vlm	hybrid	vlm
백엔드 기능 (Backend Features)	호환성 우수 (Good Compatibility)	높은 하드웨어 요구 사항 (High Hardware Requirements)	OpenAI와 호환되는 서버용2
“”정확도 (Accuracy)”	85+	95+
운영 체제 (Operating System)	Linux3 / Windows4 / macOS5
...
1 정확도 지표는 OmniDocBench (v1.6)의 End-to-End 평가 종합 점수이며, `MinerU`의 최신 버전을 기반으로 합니다.

2 로컬 모델 서버 또는 vLLM, SGLang, LMDeploy와 같은 추론 프레임워크를 통해 배포된 원격 모델 서비스를 지원하는 OpenAI API 호환 서버입니다.

3 Linux는 2019년 이후의 배포판만 지원합니다.

4 핵심 종속성인 ray가 Windows에서 Python 3.13을 지원하지 않기 때문에, 버전 3.10~3.12만 지원됩니다.

5 macOS는 버전 14.0 이상이 필요합니다.

pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"

git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[all]

Tip

mineru[all]

모든 핵심 기능을 포함하며, Windows / Linux / macOS 시스템과 호환되어 대부분의 사용자에게 적합합니다. -
Windows에서 설치한 후 CUDA 가속이 사용 불가능할 경우, Windows CUDA acceleration FAQ를 참조하십시오.

VLM 모델에 대한 추론 프레임워크를 지정해야 하거나 엣지 장치에 경량 클라이언트만 설치하려는 경우, 문서의 Extension Modules Installation Guide를 참조하십시오.

MinerU는 편리한 Docker 배포 방법을 제공하여 환경을 빠르게 설정하고 까다로운 환경 호환성 문제를 해결하는 데 도움을 줍니다.

Tip

Docker 배포는 Linux 및 WSL2 지원이 가능한 Windows 환경에서만 지원됩니다;
macOS 사용자는 Docker 배포를 사용하는 대신 위에 언급된 두 가지 설치 방법을 참조하여 설치해야 합니다.

Insights

MinerU — LLM · RAG · Agent 워크플로우를 위한 고정밀 문서 파싱 엔진

요약

핵심 포인트

MinerU — LLM · RAG · Agent 워크플로우를 위한 고정밀 문서 파싱 엔진

pdf_zh_cn.mp4

댓글

QA 엔지니어가 바이브 코딩(Vibe Coding)으로 JSTQB Advanced Level 시험 대비 사이트를 만들어 보았다

Claude Code × OpenRouter :free 모델로 API 비용을 거의 제로로 만드는 5가지 설정 패턴

KAT Coder 2.5 dev: 꼭 한번 사용해 보세요!

다중 관할권 준수 하의 지속 가능한 양식 모니터링 시스템을 위한 확률적 그래프 신경 추론 (Probabilistic Graph Neural

Claude Code × OpenRouter :free 모델로 API 비용을 거의 제로로 만드는 5가지 설정 패턴

KAT Coder 2.5 dev: 꼭 한번 사용해 보세요!

다중 관할권 준수 하의 지속 가능한 양식 모니터링 시스템을 위한 확률적 그래프 신경 추론 (Probabilistic Graph Neural