LiteParse: 개발자를 위한 빠르고 로컬에서 동작하는 문서 파서 (Document Parser)

요약

LiteParse는 API 호출 없이 로컬에서 PDF, DOCX, HTML 등의 문서를 빠르게 파싱할 수 있는 경량 도구입니다. 데이터 보안이 중요하거나 가벼운 AI 파이프라인 구축이 필요한 개발자에게 적합하며, CLI와 라이브러리 형태로 제공됩니다.

핵심 포인트

로컬 실행으로 데이터 보안 및 프라이버시 보장
PDF.js 기반의 정밀한 텍스트 위치(Bounding box) 추출
Tesseract.js를 통한 즉각적인 OCR 지원
LLM 에이전트를 위한 페이지 스크린샷 생성 기능
CLI 및 라이브러리(npm) 형태의 유연한 사용 방식

LiteParse는 깔끔하고 잘 구조화된 파일에서 텍스트를 추출하기 위한 빠르고 로컬에서 동작하는 문서 파서 (Document Parser)입니다. 최소한의 설정만으로 API 호출 없이 PDF, DOCX, HTML 등을 처리합니다. 모든 과정이 로컬에서 실행되므로, 사용자의 문서가 환경을 벗어나지 않습니다.

이 프로젝트는 그 범위를 솔직하게 밝히고 있으며, 이는 매우 신선합니다. 다음과 같은 경우에 매우 적합합니다:

복잡한 표, 혼합된 레이아웃, 또는 스캔된 페이지가 없는 비교적 단순한 문서인 경우.
데이터를 외부 서비스로 보내는 대신 로컬에서 파싱 (Parsing)을 실행하고 싶은 경우.
프로토타이핑 (Prototyping) 중이거나 경량 파이프라인 (Pipeline)을 구축 중이며, 엔터프라이즈급 정확도가 필요하지 않은 경우.

정말로 어려운 작업(밀집된 표, 다단 레이아웃, 차트, 필기체, 스캔된 PDF)의 경우, 유지 관리자들은 그들의 클라우드 제품인 LlamaParse를 권장합니다. LiteParse는 모든 것을 해결하려 하기보다 의도적으로 "빠르고 가벼운" 영역에 집중합니다.

주요 특징 (Key Features)

내부적으로 LiteParse는 공간 텍스트 파싱 (Spatial text parsing)을 위해 PDF.js에 의존하며, AI 파이프라인 (AI pipelines)에 중요한 몇 가지 기능을 제공합니다:

정밀한 경계 상자 (Bounding boxes)를 포함한 텍스트 추출을 통해, 각 텍스트 조각이 페이지의 어디에 위치하는지 알 수 있습니다.
유연한 OCR 시스템: Tesseract.js는 설정 없이 즉시 작동하며, 더 높은 정확도를 위해 EasyOCR 또는 PaddleOCR과 같은 HTTP OCR 서버를 연결할 수 있습니다.
스크린샷 생성: LLM 에이전트 (LLM agents)가 텍스트만으로는 놓칠 수 있는 시각적 정보를 포착하는 데 사용할 수 있는 페이지 이미지를 생성합니다.
JSON 또는 일반 텍스트 (Plain text) 형식의 출력.
Linux, macOS (Intel 및 ARM), Windows에서 실행 가능한 독립형 바이너리 (Standalone binary).

시작하기 (Getting Started)

LiteParse는 CLI와 라이브러리 형태로 모두 제공됩니다. 각 방식에 대한 빠른 경로를 안내합니다.

CLI 설치

권장되는 방식은 전역 npm 설치이며, 이를 통해 어디에서나 lit 명령어를 사용할 수 있습니다:

npm i -g @llamaindex/liteparse

macOS 및 Linux에서는 Homebrew를 사용할 수도 있습니다:

brew tap run-llama/liteparse
brew install llamaindex-liteparse

첫 번째 문서 파싱하기

# 기본 파싱 (Tesseract를 통해 OCR이 기본적으로 활성화됨)
lit parse document.pdf

...

폴더 전체 파싱하기

파이프라인(Pipelines)의 경우, 배치 모드(Batch mode)는 효율성을 위해 파일 전반에 걸쳐 PDF 엔진을 재사용합니다:

lit batch-parse ./input-directory ./output-directory

페이지 스크린샷 생성하기

# 모든 페이지
lit screenshot document.pdf -o ./screenshots

...

라이브러리로서 LiteParse 사용하기

코드에서 직접 호출하고 싶다면, 의존성(Dependency)으로 설치하세요:

npm install @llamaindex/liteparse
# 또는
pnpm add @llamaindex/liteparse

그러면 파싱은 몇 줄의 코드로 완료됩니다:

import { LiteParse } from '@llamaindex/liteparse';

const parser = new LiteParse({ ocrEnabled: true });
...

PDF 이외의 문서 파싱하기

LiteParse를 PDF 전용 도구와 차별화하는 한 가지 특징은 자동 형식 변환(Automatic format conversion)입니다. 적절한 헬퍼(Helper)가 설치되어 있다면, Office 문서나 이미지를 지정했을 때 먼저 PDF로 변환합니다.

Office 문서(Word, PowerPoint, 스프레드시트)의 경우, LibreOffice를 설치하세요:

# macOS
brew install --cask libreoffice

...

이미지(JPG, PNG, GIF, BMP, TIFF, WebP, SVG)의 경우, ImageMagick을 설치하세요:

# macOS
brew install imagemagick

...

이 도구들이 준비되면, LiteParse가 백그라운드에서 변환을 처리합니다.

설정 (Configuration)

CLI 플래그(Flags)를 통해 모든 것을 제어하거나, liteparse.config.json 파일에 기본값을 설정할 수 있습니다:

{
  "ocrLanguage": "en",
  "ocrEnabled": true,
...

외부 OCR 서버를 지정하려면 ocrServerUrl을 추가하세요:

{
  "ocrServerUrl": "http://localhost:8828/ocr",
  "ocrLanguage": "en",
...

그 다음 실행합니다:

lit parse document.pdf --config liteparse.config.json

사용자 정의 OCR 사용하기

기본 Tesseract.js 엔진은 별도의 설정이 필요하지 않지만, 더 높은 정확도를 원한다면 LiteParse의 간단한 API 사양을 구현하는 어떤 OCR 서비스든 연결할 수 있습니다. 규약은 매우 최소한적입니다. file과 language를 받아 각 결과의 텍스트, 경계 상자 (bounding box), 그리고 신뢰도 점수 (confidence score)가 포함된 JSON을 반환하는 /ocr POST 엔드포인트만 있으면 됩니다. 저장소(repo)에는 템플릿으로 사용할 수 있는 EasyOCR 및 PaddleOCR용 기성 예제 래퍼 (wrapper)가 포함되어 있습니다.

사용해야 할까요?

LiteParse는 특정 목적을 위해 제작되었으며 그 경계가 명확하여 판단하기 쉽습니다. RAG 파이프라인, 에이전트 (agent), 또는 빠른 프로토타입 제작을 위해 깨끗한 문서로부터 로컬에서 빠르고 텍스트를 추출해야 한다면, 이는 의존성이 적고 견고한 선택지입니다. 만약 문서가 지저분하거나, 스캔되었거나, 표 (table)가 많다면, 유지 관리자들은 더 무거운 솔루션이 필요할 것이라고 솔직하게 밝히고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기