RAG를 수행하는 모든 이들에게 강력 추천하는 프로젝트: Marker보다 116배 빠르고 정확도가 높은 오픈소스 PDF 파서
요약
RAG 파이프라인을 위한 고성능 오픈소스 PDF 파서인 OpenDataLoader PDF를 소개합니다. 기존 Marker 대비 116배 빠른 속도와 높은 정확도를 자랑하며, 로컬 CPU 환경에서도 효율적으로 작동합니다.
핵심 포인트
- Marker 대비 116배 빠른 처리 속도 (페이지당 0.46초)
- 표, 수식, 이미지 및 80개 이상의 언어 OCR 지원
- Markdown, JSON, HTML 등 다양한 출력 형식 지원
- LangChain 네이티브 통합 및 Apache 2.0 라이선스 제공
- GPU 없이 로컬 CPU만으로 실행 가능한 높은 효율성
RAG (Retrieval-Augmented Generation)를 수행하는 모든 분들에게 이 프로젝트를 강력히 추천합니다. 이 PDF 파서 (Parser)는 Marker보다 116배 빠르고 정확도가 더 높으며, 로컬 CPU에서도 실행 가능한 완전한 오픈소스입니다.
OpenDataLoader PDF라고 불리는 이 도구는 RAG 파이프라인 (Pipeline)을 위해 특별히 제작된 PDF 파서로, 벤치마크 종합 1위(점수 0.907), GitHub 별점 2.4만 개(2.4k stars)🌟를 기록하고 있습니다.
RAG를 구축해 본 분들이라면 그 절망감을 이해하실 겁니다.
PDF가 입력된 후 읽기 순서가 뒤섞이고, 표 (Table)는 한 줄로 압축되며, 수식 (Formula)은 기호 뭉치로 변하고, 다단 레이아웃 (Multi-column layout)은 모두 어긋납니다. LLM (Large Language Model)이 아무리 강력해도 입력 데이터 자체가 엉망이면 소용이 없습니다.
제가 생각하는 이 프로젝트의 탄탄한 특징들은 다음과 같습니다:
- 200개의 실제 문서(다단 레이아웃, 학술 논문, 재무 보고서 포함)를 통해 테스트 완료
- 로컬 CPU에서 실행 가능하며 GPU가 필요하지 않음, 페이지당 단 0.46초 소요
- 표/수식/이미지/차트 + 80개 이상의 언어 OCR 지원, 스캔된 문서도 바로 처리 가능
- Markdown / JSON (좌표 경계 상자 포함) / HTML 출력 지원, LangChain 네이티브 통합
비교 데이터를 보면 정말 놀랍습니다.
Marker는 PDF 한 페이지를 실행하는 데 53.9초가 걸리지만, OpenDataLoader는 0.46초가 걸립니다.
116배나 빠르며, 종합 정확도 또한 더 높습니다.
일반적인 페이지는 로컬 규칙 (Local rules)으로 효율적으로 처리하고, 극도로 복잡한 특수 페이지에만 AI 강화를 적용합니다. 무턱대고 모든 것을 LLM에 맡겨 비용을 낭비하는 방식이 아닙니다.
Apache 2.0 라이선스로 상업적 이용에도 전혀 걱정이 없습니다.
지식 베이스 구축, 문서 질의응답, 논문 해석, 계약서 분석 등을 지원합니다. RAG 파이프라인의 이 단계에서 드디어 제대로 만들어진 도구가 나왔습니다.
LangChain 네이티브 통합: pip install langchain-opendataloader-pdf
GitHub 🔗 링크는 댓글 첫 번째를 확인하세요⬇️
AI 자동 생성 콘텐츠
본 콘텐츠는 X @ayi_ainotes (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기