
LLM 토큰을 낭비하지 않도록 로컬 PDF-to-Markdown 변환기를 제작했습니다
요약
LLM의 토큰 비용을 절감하기 위해 PDF를 로컬에서 Markdown으로 변환하는 클라이언트 사이드 도구 LiteDoc을 소개합니다. 서버 없이 브라우저 내에서 텍스트 추출, 이미지 분리, 수학식 처리를 수행하여 효율적인 데이터 입력을 지원합니다.
핵심 포인트
- 100% 클라이언트 사이드 동작으로 서버 및 Python 설치 불필요
- PDF를 Markdown으로 변환하여 LLM 토큰 사용량 대폭 절감
- LaTeX 수학식 및 아랍어 등 다양한 스크립트 지원
- 텍스트 레이어 손상 시 이미지 렌더링으로 자동 전환
- 헤더/푸터 제거 및 스마트 단어 결합 기능 포함
만약 여러분이 가공되지 않은 PDF를 Claude나 ChatGPT에 그대로 집어넣고 있다면, 토큰과 돈을 낭비하고 있는 것입니다. 저는 이를 해결하기 위해 LiteDoc을 만들었습니다. LiteDoc은 브라우저 내에서 로컬로 PDF를 처리하는 100% 클라이언트 사이드 (client-side) 도구입니다. LiteDoc: 100% 로컬, 브라우저 기반 PDF to Markdown 변환기 (Python 불필요, pip install 불필요, 서버 불필요).
기능:
- 서버 없이 메모리 내에서 PDF를 언팩(Unpack)합니다.
- 텍스트를 추출하고, 임베디드된 이미지를 분리하며, 모든 것을 깔끔한 Markdown으로 구조화합니다.
- LaTeX 수학식과 오른쪽에서 왼쪽으로 읽는 아랍어를 네이티브로 처리합니다.
- 사용자 정의로 인코딩된 "의미 없는(gibberish)" 폰트를 감지합니다.
- 텍스트 레이어가 손상된 경우, 해당 특정 페이지나 텍스트 영역을 이미지로 자동 렌더링합니다.
- .md 파일과 최적화된 이미지 폴더를 ZIP 파일로 압축하여 출력합니다.
여기서 시도해 볼 수 있습니다: litedoc.xyz github repo
Markdown 결과물
Page 1
Deep Structural Neural Mapping
Deep learning 전략은 종종 구조화되지 않은 입력을 직접 실행할 때 실패합니다. 손실 함수 (loss function)는 다음과 같이 정의됩니다:
$$L(\theta) = -\frac{1}{N}\sum_{i=1}^{N} \left[ y_i \log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i) \right]$$
Page 2
[IMAGE: academic_paper_p2_img1.jpg]
Arabic Sample Markdown
إلى صيغة PDF هذا التطبيق أداةً مجانيةً لتحويل ملفات
작동 원리
브라우저 내에서 PDF.js와 JSZip을 사용하여 완전히 실행됩니다. 추출 엔진은 문장이 끊기는 것을 방지하기 위해 X-gap 인지 스마트 단어 결합 (X-gap aware smart word joining)을 사용하며, 수학적으로 열 분할 (column splits)을 감지하고, 폰트 크기를 Markdown 헤딩 레벨 (H1/H2/H3)에 매핑합니다. 또한 반복되는 헤더와 푸터를 지문 인식(fingerprinting)하여 제거합니다. 호환되지 않는 유니코드 스크립트 혼합(private font 인코딩을 나타냄)이 감지되면, 해당 폰트에 대한 텍스트 추출을 중단하고 캔버스 기반 이미지 렌더링으로 전환합니다.
토큰을 절약하는 방법
LLM은 비전 (vision) 및 PDF 래스터화 (rasterization)에 대해 높은 비용을 청구합니다 (페이지당 대략 850 토큰). 문서를 로컬에서 처리함으로써, LiteDoc은 AI의 내부 래스터라이저를 우회합니다. 원시 텍스트를 추출하고 임베디드된 이미지를 저/중해상도로 재압축합니다.
무거운 50페이지 분량의 PDF를 업로드하는 대신, 원시 텍스트(raw text)와 필요한 특정 이미지만 붙여넣으면 됩니다. 이를 통해 토큰 사용량을 수만 개의 토큰에서 원시 문자 수(raw character count) 수준으로 대폭 줄일 수 있습니다. https://preview.redd.it/9wgu6vd9kj5h1.png?width=1200&format=png&auto=webp&s=fe6b95bd922abf0107c37f1f5d943493831e47a4 /u/mxsus 님이 제출함 [link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/ClaudeAI (top/week)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기