요약 (TL;DR): OpenDataLoader PDF는 태그가 지정되지 않은 PDF를 스크린 리더(screen-reader)가 읽을 수 있는 태그된 PDF(Tagged PDFs)로 자동 태깅하는 최초의 오픈 소스 도구이자, RAG 파이프라인을 위한 가장 성능이 뛰어난 오픈 소스 PDF 파서(parser)입니다. 하지만 모든 PDF가 동일하지 않기 때문에 다양한 옵션을 제공합니다. 휴리스틱 엔진(heuristic engine)은 CPU에서 초당 60페이지 이상을 처리하며 0.91의 읽기 순서(reading order) 정확도를 보입니다. 하이브리드 AI 모드는 복잡한 문서에 대해 정확도를 0.934까지 높여줍니다. 출력물에는 RAG 파이프라인을 위한 경계 상자(bounding boxes)가 포함된 JSON 또는 사람이 읽기 쉬운 Markdown이 포함됩니다. 자동 태깅은 무료(Apache 2.0)이며, 전체 PDF/UA-1 및 PDF/UA-2 내보내기는 엔터프라이즈 부가 기능입니다. 사용자는 자신의 문서, 규정 준수 요구 사항 및 인프라에 적합한 것을 선택할 수 있습니다.

핵심 기술 옵션 및 의미
OpenDataLoader PDF가 많은 선택지를 제공하는 이유는 복잡하게 만들기 위해서가 아니라, 서로 다른 사용 사례와 문서 유형에 따라 서로 다른 접근 방식이 필요하기 때문입니다. 각 옵션이 어떤 역할을 하는지, 그리고 왜 중요한지 설명합니다.

출력 형식: JSON, Markdown, HTML, Annotated PDF, Text

OpenDataLoader를 실행할 때, 사용자는 이러한 출력 형식 중에서 선택하게 됩니다.

JSON은 구조화된 기계 판독 가능(machine-readable) 데이터를 제공합니다. 모든 요소(제목, 단락, 표, 목록, 캡션)는 의미론적 유형(semantic type)과 경계 상자(bounding box)로 태깅됩니다. 사용자는 모든 콘텐츠에 대한 정확한 좌표를 얻을 수 있습니다. 이는 RAG 파이프라인의 기초가 되는데, 사용자가 추출된 텍스트를 페이지의 정확한 위치로 다시 매핑할 수 있기 때문입니다.

Markdown은 사람이 읽을 수 있는 텍스트를 제공합니다. 더 깔끔하고 단순하며, 추출된 콘텐츠를 단순히 읽거나 미리 보기만 하면 될 때 유용합니다.

조언: 정밀도와 구조가 필요할 때는 JSON을 선택하세요. 가독성이 필요할 때는 Markdown을 선택하세요.

HTML 출력 (HTML output)은 PDF 콘텐츠를 스타일이 적용된 웹용 문서로 변환합니다. 구조가 보존되어 제목(headings), 단락(paragraphs), 목록(lists), 표(tables)가 적절한 HTML 태그와 인라인 스타일링(inline styling)과 함께 렌더링됩니다.
주석이 달린 PDF 출력 (Annotated PDF output)은 원본 문서 위에 시각적인 오버레이를 생성합니다. 감지된 모든 요소(제목, 단락, 표, 목록, 이미지)는 색상이 있는 경계 상자(bounding box)로 강조 표시되며 해당 시맨틱 유형(semantic type)이 라벨로 표시됩니다.

**주석이 달린 PDF (Annotated PDF)**는 사용자가 원시 JSON (raw JSON)을 한 줄도 읽지 않고도 시각적으로 즉각적인 확신을 가질 수 있게 해줍니다.

**텍스트 출력 형식 (Text output format)**은 원시 텍스트 콘텐츠를 제외한 모든 것을 제거합니다. 경계 상자도 없고, 시맨틱 유형도 없으며, 서식도 없습니다. 오직 올바른 읽기 순서(reading order)로 추출된 텍스트만 남습니다.
출력 형식 비교

[

]

레이아웃 분석: XY-Cut++ 알고리즘

읽기 순서(Reading order)는 PDF 추출에서 가장 어려운 문제 중 하나입니다. 페이지가 사람에게는 완벽해 보일 수 있지만, 기계는 예를 들어 다단(multi-column) 페이지 레이아웃을 표로 혼동하거나 각주(footnotes)를 본문(body text)과 섞어버릴 수 있습니다.

OpenDataLoader는 XY-Cut++ 알고리즘을 통해 이 문제를 해결합니다. 이 알고리즘은 페이지 기하학(geometry)을 분석하고, 열(columns)과 블록(blocks) 사이의 간격을 찾아내며, 모든 요소가 올바른 순서에 배치될 때까지 페이지를 재귀적으로 분할합니다. 그 결과 인간이 페이지를 읽는 방식과 유사한 논리적인 읽기 순서가 도출됩니다.

이것이 중요한 이유는 잘못된 읽기 순서가 정보 검색(information retrieval)을 망가뜨리기 때문입니다. 만약 RAG 파이프라인이 순서를 잘못 파악하면, 생성되는 답변 또한 틀리게 됩니다.

OpenDataLoader에서 이 알고리즘은 기본적으로 활성화되어 있으며, 비활성화할 수 있는 옵션이 제공됩니다.

처리 엔진: 휴리스틱 (Heuristic) vs 하이브리드 (Hybrid)

**OpenDataLoader의 기본 엔진 (default engine)**은 휴리스틱 (Heuristic) 방식으로, CPU에서 완전히 실행되는 빠르고 결정론적인 (deterministic) 규칙 기반 시스템입니다. 초당 60페이지 이상을 처리하며, GPU가 필요하지 않고 100% 로컬 (local)에서 작동합니다. 데이터는 절대 사용자의 기기를 벗어나지 않습니다.

휴리스틱 엔진은 대부분의 텍스트 기반 PDF에 이상적입니다. 프라이버시가 보장되며, 빠르고 예측 가능합니다.

복잡한 문서의 경우: 스캔된 페이지, 테두리 없는 표 (borderless tables), 수학 공식, 차트 등이 해당됩니다. OpenDataLoader는 하이브리드 (Hybrid) AI 모드를 제공합니다. 이 모드는 어려운 페이지를 휴리스틱 엔진이 처리할 수 없는 작업을 수행하는 로컬 AI 백엔드 (backend)로 라우팅 (routing)합니다.

그 결과: 표 정확도 (table accuracy)가 0.49에서 0.93으로 급증하며, 읽기 순서 정확도 (reading order accuracy)는 0.91에서 0.934로 향상됩니다.

사용자는 문서와 성능 요구 사항에 따라 엔진을 선택합니다. 또한 이러한 선택지들은 속도 (CPU 전용, 초당 60페이지 이상), 프라이버시 (100% 로컬), 그리고 정확도 (경계 상자 (bounding boxes), 올바른 읽기 순서) 사이의 균형을 맞추도록 설계되었습니다. 사용자는 출력물을 선택하고 레이아웃과 구조에 대한 엔진의 내장된 지능에 의존함으로써, 고처리량 (high-throughput) 로컬 RAG 파이프라인을 위한 강력한 도구로 활용할 수 있습니다.

표 탐지 (table detection)를 위한 두 가지 알고리즘: border 및 cluster

휴리스틱 모드에서 표 추출 (table extraction) 과정 중에 OpenDataLoader는 두 가지 서로 다른 방법을 사용합니다. 기본적으로는 표의 테두리에만 집중하는 'border' 알고리즘만 사용됩니다. 사용자는 콘텐츠를 클러스터 (cluster)로 나누어 표를 식별하는(테두리가 없는 표 포함) 두 번째 알고리즘인 'cluster'를 활성화할 수도 있습니다.

OpenDataLoader의 노이즈 필터링 (Noise filtering)

PDF는 작은 텍스트, 보이지 않는 텍스트, 숨겨진 레이어 (hidden layers), 그리고 페이지 외부에 있는 텍스트로 가득 차 있습니다. 사용자가 이 모든 것을 LLM에 전달하면, 무관한 정보로 인해 컨텍스트 (context)가 오염됩니다.

OpenDataLoader는 작은 텍스트, 보이지 않는 텍스트, 숨겨진 레이어, 페이지 외부의 텍스트를 자동으로 필터링합니다. 오직 본문 내용만이 추출되어 사용자의 파이프라인으로 전달됩니다. 입력값이 깨끗할수록 더 나은 결과물이 나옵니다.

필터는 사용자 정의(customizable)도 가능합니다. 기본적으로 모든 필터가 활성화되어 작은 텍스트, 보이지 않는 텍스트, 숨겨진 레이어, 페이지 외부의 텍스트 등 모든 콘텐츠를 제거합니다. 하지만 사용자는 이러한 필터들을 원하는 조합으로 비활성화할 수 있습니다.

태그된 PDF 지원 (Tagged PDF Support): 네이티브 구조 사용

PDF가 "태그(Tagged)"되어 있다면 이미 헤딩 (headings), 단락 (paragraphs), 리스트 (lists), 읽기 순서 (reading order)와 같은 네이티브 구조 정보 (native structural information)를 포함하고 있습니다. 이는 PDF/UA 또는 WCAG 표준을 준수하는 접근성 있는 (accessible) PDF에서 흔히 볼 수 있는 경우입니다.

ODL은 레이아웃을 재분석하는 대신 기존의 문서 구조를 사용할 수 있습니다. 이는 문서의 기존 태그 (tags)에 의존하기 때문에 더 빠르고 정확합니다. 이 옵션은 PDF가 적절하게 태그되어 있는 경우에만 사용하는 것을 권장합니다.

OpenDataLoader는 하나의 도구입니다. 다양한 워크플로우 (workflows). 결정은 당신의 몫입니다.

hancom #opendataloader #pdf

웹사이트: https://opendataloader.org/

GitHub: https://github.com/opendataloader-project/opendataloader-pdf

OpenDataLoader PDF: 하나의 도구와 수많은 옵션!

요약

핵심 포인트

hancom #opendataloader #pdf

댓글