본문으로 건너뛰기

© 2026 Molayo

How To AI요약2026. 06. 02. 01:26

초당 100페이지를 Markdown으로 변환하는 오픈 소스 PDF 파서 등장

요약

초당 100페이지를 Markdown으로 변환할 수 있는 오픈 소스 PDF 파서인 OpenDataLoader가 공개되었습니다. CPU 기반으로 작동하며 표, 중첩 레이아웃, 80개 이상의 언어 OCR을 지원합니다.

핵심 포인트

  • 초당 100페이지의 압도적인 처리 속도
  • GPU나 API 키 없이 CPU만으로 작동
  • 복잡한 표 및 중첩 레이아웃 처리 능력 탁월
  • LangChain 공식 통합 지원
  • 다양한 벤치마크에서 기존 도구 대비 우수한 성능

누군가 초당 100페이지를 Markdown으로 변환하는 PDF 파서(parser)를 오픈 소스로 공개했습니다.

100% 무료입니다. CPU에서 작동하며, GPU, 클라우드, API 키가 필요 없습니다.

→ 초당 100페이지 처리.
→ 표(tables), 중첩된 레이아웃(nested layouts), 복잡한 문서(complex docs) 처리.
→ 하이브리드 모드를 통해 80개 이상의 언어에 대한 내장 OCR 지원.
→ 공식 LangChain 통합.

이름은 OpenDataLoader이며, 모든 PDF-to-Markdown 벤치마크에서 1위를 차지했습니다.

가장 놀라운 점은 docling이 0.86점을 기록하며 15배 더 느리고, marker는 GPU가 필요하며 1,000배 더 느리다는 것입니다. Pymupdf4llm은 빠르지만 표(tables) 점수가 0.40에 불과합니다.

이 도구는 CPU 환경에서 이 모든 것들을 압도합니다.

PDF 표준을 실제로 작성하는 PDF Association 및 veraPDF 팀과 함께 구축되었습니다.

8.6k stars. Apache 2.0. 독점적인 종속성(proprietary dependencies) 없음.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @HowToAI_ (AI 활용법)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0