이거, 은근히 대단합니다.

PDF를 AI에게 읽히려고 하면 표가 깨지거나, 레이아웃이 엉망이 되거나, 변환에 시간이 오래 걸리거나, 결국 유료 서비스나 GPU가 필요해서... 좌절하기 쉽습니다.

그때 등장한 것이 OpenDataLoader입니다.
PDF를 「표와 제목도 그대로」 Markdown으로 변환해 주는, 완전 무료로 사용할 수 있는 오픈 소스 (Open Source) 도구입니다.

게다가,

→ 일반 컴퓨터 (CPU)만으로 작동
→ GPU도 클라우드도 API 키도 필요 없음
→ 데이터는 외부로 일절 전송되지 않음 (완전 로컬)

즉, 기밀 문서라도 안심하고 입력할 수 있습니다.

자세한 내용은 아래에 남깁니다.

무엇이 대단하냐면, 속도와 정밀도를 모두 잡았다는 점입니다.

→ CPU만으로 초당 60페이지 이상 (1페이지당 0.02초) 처리
→ 표, 중첩된 레이아웃, 복잡한 서류도 OK
→ 80개 이상의 언어 문자 인식 (OCR) 대응 (일본어도 OK)
→ LangChain (AI 개발에서 자주 사용하는 메커니즘) 공식 대응

같은 작업을 수행하는 기존 도구들과 비교해도 차이가 납니다.

→ docling: 정밀도 0.882. 단, 로컬 동작 시 약 38배 느림
→ marker: 정밀도 0.861. GPU 필수이며 약 1000배 느림 (1페이지당 약 54초)
→ pymupdf4llm: 빠르지만 표의 정밀도는 0.401로 깨지기 쉬움

은근히 강력한 점은 「누가 만들었는가」입니다.

PDF 국제 표준을 책정하는 단체 (PDF Association)와 그 검증 도구인 veraPDF의 개발처가 공동으로 만들고 있습니다. 표준을 만드는 사람들이 손을 댔다는 안심감이 있습니다.

・GitHub 스타 2만 개 초과
・라이선스는 Apache 2.0 (상업적 이용 가능)
・유료 의존 파트 없음

공식 리포지토리(Repository)는 여기입니다.

이 게시물이 도움이 되었다면,
@so_ainsight
를 팔로우해 주세요.
좋아요와 리포스트도 부탁드립니다.

은근히 대단하지만, 믿을 수 없을 정도로 유용합니다.
ChatGPT가 긴 대화에 "목차" 기능을 추가했습니다.

・장기간 사용된 채팅에 대해 지도가 자동으로 생성됨
・원하는 주제로 바로 이동할 수 있음
・"간단한 질문"이 3시간의 심도 있는 대화로 이어지더라도

Insights