Transformers 백엔드를 지원하는 PaddleOCR 3.5: OCR 및 문서 파싱 작업 수행

Hugging Face Transformers를 추론 백엔드 (inference backend)로 설정하여:

engine="transformers"

PaddleOCR은 PP-OCRv5와 같은 OCR 모델 시리즈와 PaddleOCR-VL 1.5와 같은 문서 파싱 (document parsing) 모델 시리즈를 지속적으로 제공하는 동시에, Transformers가 이를 실행하기 위한 지원 백엔드 중 하나가 되었습니다.

Hugging Face Spaces에서 라이브 데모를 체험해 보세요: https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

PaddleOCR 3.5는 더욱 유연한 추론 엔진 (inference-engine) 인터페이스를 도입했습니다. 개발자는 engine 파라미터를 통해 백엔드를 선택할 수 있으며, engine_config를 통해 백엔드별 특정 옵션을 전달할 수 있습니다.

실제적으로 이는 다음과 같은 의미를 갖습니다:

이러한 작업들의 파이프라인 (pipelines)은 PaddleOCR에 의해 관리되므로, 개발자가 각 내부 구성 요소를 수동으로 호출할 필요가 없습니다.
Transformers가 지원되는 PaddleOCR 모델을 실행하기 위한 지원 추론 백엔드 중 하나가 됩니다.
개발자는 engine_config를 통해 dtype, 장치 배치 (device placement), 어텐션 구현 (attention implementation)과 같은 백엔드 관련 옵션을 구성할 수 있습니다.

스택 (stack)을 이해하는 간단한 방법은 다음과 같습니다:

계층 (Layer)	의미	예시
애플리케이션 계층 (Application layer)	OCR 및 문서 파싱 출력을 사용하는 애플리케이션	RAG, 에이전트 (agents), Document AI...
모델 계층 (Model layer)	OCR 및 문서 파싱 기능	PP-OCRv5, PaddleOCR-VL 1.5...
추론 백엔드 계층 (Inference backend layer)	지원되는 모델을 실행하는 데 사용되는 런타임 (Runtime)	Paddle 정적 그래프 (static graph), Paddle 동적 그래프 (dynamic graph), Transformers

이번 릴리스는 주로 추론 백엔드 계층에 관한 것입니다. PaddleOCR은 OCR 및 문서 파싱 기능을 계속 제공하며, Transformers는 지원되는 PaddleOCR 모델에 Hugging Face 중심 환경에 자연스럽게 어우러지는 또 다른 백엔드 옵션을 제공합니다. 더 큰 규모의 Document AI 워크플로우 (workflow)는 여전히 개발자와 애플리케이션 빌더의 영역으로 남아 있습니다.

RAG, Document AI, 그리고 문서 에이전트 (document agent) 애플리케이션의 경우, 어려운 부분은 종종 LLM (Large Language Model) 이전 단계에서 시작됩니다.

개발자들은 먼저 PDF, 스캔된 문서, 스크린샷, 표, 차트, 공식 및 복잡한 페이지 레이아웃을 신뢰할 수 있는 구조화된 데이터 (structured data)로 변환해야 합니다. 만약 이 수집 (ingestion) 단계가 취약하다면, 다운스트림 (downstream) LLM 워크플로우는 핵심 정보를 놓치거나, 잘못된 컨텍스트 (context)를 검색하거나, 신뢰할 수 없는 답변을 생성할 수 있습니다.

PaddleOCR은 PP-OCRv5와 같은 OCR 시리즈 모델과 PaddleOCR-VL-1.5와 같은 문서 파싱 (document parsing) 시리즈 모델을 제공함으로써 이러한 문서 수집 과제를 해결하는 데 도움을 줍니다.

PaddleOCR 3.5를 통해, 이러한 기능들을 이제 Transformers 중심의 스택 (stacks)과 더 쉽게 연결할 수 있습니다. 지원되는 PaddleOCR 모델은 Transformers 백엔드 (backend)에서 실행될 수 있으며, 그동안 PaddleOCR은 백그라운드에서 OCR 또는 문서 파싱 파이프라인 (pipeline)을 계속 관리합니다.

개발자들에게 이는 통합 마찰 (integration friction)이 줄어들고, 문서에서 다운스트림 RAG, 에이전트 (agent), 검색, 분석 또는 자동화 워크플로우로 이어지는 더욱 자연스러운 경로를 의미합니다.

PaddleOCR 3.5, PaddleX, Transformers, 그리고 사용자의 하드웨어에 호환되는 PyTorch 빌드 (build)를 설치하십시오.

예를 들어, CUDA 12.6 환경에서는 다음과 같습니다:

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"

CPU, ROCm 또는 기타 환경의 경우, 대상 하드웨어와 일치하는 PyTorch 빌드를 설치하십시오.

커맨드 라인 (command line)에서 실행하십시오:

paddleocr ocr \
-i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \
--device gpu:0 \
...

또는 Python API를 사용하십시오:

from paddleocr import PaddleOCR
pipeline = PaddleOCR(
device="gpu:0",
...

Hugging Face Space는 폭넓은 호환성을 위해 float32를 사용합니다.

사용자의 하드웨어의 경우, engine_config를 통해 백엔드별 옵션을 조정할 수 있습니다:

engine_config = {
"dtype": "bfloat16",
"device_type": "gpu",
...

최적의 설정은 모델, 하드웨어 및 배포 환경에 따라 달라집니다.

PaddleOCR의 OCR 및 문서 파싱 (document parsing) 기능을 Hugging Face 중심의 스택에 더 자연스럽게 통합하고 싶을 때 Transformers 백엔드를 사용하세요.

이는 RAG, Document AI, 검색, 분석 또는 에이전트 (agent) 애플리케이션을 구축 중이며, 모델 로딩, 실험, 배포 또는 모델 아티팩트 (model artifact) 관리를 위해 이미 PyTorch / Transformers 인프라에 의존하고 있는 경우 특히 유용합니다.

Transformers 백엔드는 다음과 같은 경우에 적합합니다:

이미 Transformers를 사용 중인 팀에게 더 익숙한 개발 경험을 제공하고자 할 때,
지원되는 PaddleOCR 모델에 대해 Hub 호환 모델 검색 및 배포가 필요할 때,
기존 PyTorch / Transformers 서비스와의 더 쉬운 통합을 원할 때.

OCR 또는 문서 파싱 처리량 (throughput)을 극대화하는 것이 우선순위라면, PaddleOCR의 기본 paddle_static 백엔드가 일반적으로 권장되는 선택입니다.

이번 릴리스는 하나의 백엔드를 다른 것으로 대체하기 위한 것이 아닙니다. 개발자에게 더 많은 유연성을 제공하기 위함입니다. 즉, OCR 및 문서 파싱 기능을 위해 PaddleOCR을 사용하되, 귀하의 스택에 가장 잘 맞는 추론 (inference) 백엔드를 선택할 수 있도록 하는 것입니다.

Hugging Face Spaces에서 PaddleOCR 3.5 Transformers 데모를 체험해 보세요:

Hub에서 PaddleOCR 모델을 탐색해 보세요:

PaddleOCR 3.5는 OCR 및 문서 파싱 기능을 Transformers 중심의 워크플로에 더 가깝게 가져오는 동시에, 개발자들이 이를 기반으로 더 큰 Document AI 애플리케이션을 구축할 수 있는 자유를 제공합니다.

PaddleOCR 문서: https://www.paddleocr.ai/
GitHub의 PaddleOCR: https://github.com/PaddlePaddle/PaddleOCR
Hugging Face의 PaddlePaddle 조직: https://huggingface.co/PaddlePaddle
Spaces의 PaddleOCR 3.5 Transformers 데모: https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

PaddleOCR 3.5 Transformers 통합을 지원해 주신 Hugging Face 엔지니어분들께 진심으로 감사드립니다.

모든 관련 풀 리퀘스트 (pull requests)를 검토하고 병합하는 것을 포함하여 엔드 투 엔드 (end-to-end)로 참여해 주신 Anton Vlasjuk에게 특별한 감사를 전합니다.

또한 소중한 PR (Pull Request) 리뷰와 피드백을 제공해 준 Raushan Turganbay와 Yoni Gozlan에게도 감사를 표합니다.

이들의 가이드는 Hugging Face 커뮤니티를 위한 통합 품질, 문서화, 그리고 개발자 경험 (developer experience)을 개선하는 데 큰 도움이 되었습니다.

Transformers 백엔드를 지원하는 PaddleOCR 3.5: OCR 및 문서 파싱 작업 수행

요약

핵심 포인트

댓글