본문으로 건너뛰기

© 2026 Molayo

GH Trending릴리즈2026. 05. 09. 06:36

PaddlePaddle/PaddleOCR

요약

PaddleOCR은 PDF 문서와 이미지를 구조화된 JSON/Markdown 형식의 LLM 준비 데이터로 변환하는 최첨단 OCR 솔루션입니다. 최고 수준의 성능을 자랑하는 PaddleOCR-VL 시리즈는 왜곡, 스캔, 조명 등 실제 환경의 복잡한 시각 자료를 높은 정확도로 파싱하며, 표, 수식, 차트 같은 복합 요소 인식에 강점을 가집니다. 또한 100개 이상의 언어를 지원하고 다양한 하드웨어 백엔드를 통해 유연하게 배포할 수 있어 AI 에이전트 및 RAG 애플리케이션 구축의 핵심 인프라로 활용됩니다.

핵심 포인트

  • **구조화된 데이터 변환**: PDF/이미지에서 텍스트를 넘어 표, 레이아웃 등 복잡한 구조 정보를 JSON 또는 Markdown 형식으로 추출합니다.
  • **최첨단 VLM (PaddleOCR-VL)**: 문서 파싱에 특화된 경량 비전-언어 모델로, 왜곡되거나 스캔된 실제 환경의 문서를 높은 정확도로 처리합니다.
  • **다국어 및 범용성**: 100개 이상의 언어를 지원하며, ID, 책, 산업 부품 등 다양한 '실제 세계' 시나리오에서 자연스러운 텍스트 인식 능력을 제공합니다.
  • **뛰어난 배포 유연성**: NVIDIA GPU, Intel CPU를 포함한 다양한 하드웨어 백엔드를 지원하고 브라우저(PaddleOCR.js)에서도 실행 가능하여 광범위하게 통합됩니다.
  • **AI 생태계 통합**: Dify, RAGFlow 등 주요 AI 에이전트 및 RAG 플랫폼과 깊이 통합되어 LLM 데이터 파이프라인 구축에 최적화되어 있습니다.

PaddleOCR 는 산업 최첨단 정확도로 PDF 문서 및 이미지를 구조화된 LLM 준비 데이터 (JSON/Markdown) 로 변환합니다. Dify, RAGFlow, Cherry Studio 와 같은 상위 프로젝트에서 신뢰받고 70k+ Stars 를 보유한 PaddleOCR 는 지능형 RAG 및 Agentic 애플리케이션 구축의 기초입니다.

LLM 시대를 위한 구조화된 데이터로 어지러운 시각 자료 변환.

최고 문서 VLM: PaddleOCR-VL-1.5 (0.9B) 을 특징으로 하여, 문서 파싱을 위한 업계 최첨단 경량 비전 - 언어 모델입니다. 5 가지 주요 "실제 세계" 과제를 처리하며 구조화된 출력은 MarkdownJSON 형식을 제공합니다.왜곡, 스캔, 화면 사진, 조명, 그리고 기울어진 문서, PaddleOCR-VL 시리즈 모델과 달리 더 세분화된 좌표 정보를 제공하며, 표 셀 좌표, 텍스트 좌표 등을 포함합니다.구조 인식 변환: PP-StructureV3를 통해 복잡한 PDF 및 이미지를 Markdown또는 JSON으로 원활하게 변환합니다.

생산성 준비 효율성: 초소형 푸트를 달성하여 상업급 정확도를 달성합니다. 공개 벤치마크에서 많은 폐쇄형 솔루션을 능가하고, 엣지/클라우드 배포에 자원 효율적입니다.

글로벌 고속 다국어 텍스트 스팟팅의 금표준.

100+ 언어 지원: 광범위한 글로벌 라이브러리를 위한 네이티브 인식. 우리의 PP-OCRv5 단일 모델 솔루션은 중국어, 영어, 일본어, 병음 등을 포함한 다국어 혼합 문서를 우아하게 처리합니다.복잡한 요소 마스터십: 표준 텍스트 인식 외에도, ID, 거리 뷰, 책, 산업 부품과 같은 광범위한 환경의 자연스러운 장면 텍스트 스팟팅을 지원합니다.성능 점프: PP-OCRv5 는 이전 버전 대비 13% 정확도 향상을 제공하며 PaddleOCR 에 유명한 "극한 효율성" 을 유지합니다.

무결합 통합: AI 에이전트 생태계의 최선 선택—Dify, RAGFlow, Pathway, Cherry Studio와 깊이 통합됩니다.LLM 데이터 플라이휠: 고품질 데이터셋 구축을 위한 완전한 파이프라인, 대규모 언어 모델 미세 조정의 지속 가능한 "데이터 엔진" 을 제공합니다.원클릭 배포: 다양한 하드웨어 백엔드 (NVIDIA GPU, Intel CPU, Kunlunxin XPU, 다양한 AI 가속기) 를 지원합니다.

Flexible inference backends: Paddle 정적 그래프, Paddle 동적 그래프, 또는 Transformers 간에 원활하게 전환 가능. PaddleOCR 는 이제 Hugging Face 생태계와 심도 있게 통합되었으며, 20 개의 주요 모델이 Transformers 를 인퍼런스 백엔드로 지원합니다.

Office documents to Markdown: Word, Excel, PowerPoint 와 같은 일반적인 문서 포맷을 Markdown 으로 변환합니다.

DOCX export for parsed results: PaddleOCR-VL 시리즈, PP-StructureV3, 그리고 PP-DocTranslation 은 이제 파싱된 결과를 DOCX 로 내보내도록 지원하여 Microsoft Word 에서 편리하게 보기 및 편집할 수 있습니다.

Official browser inference SDK: PaddleOCR.js 를 출시했습니다. 이는 브라우저에서 직접 PP-OCRv5 를 실행하는 데 지원하는 공식 브라우저 인퍼런스 SDK 입니다.

2026.01.29: PaddleOCR 3.4.0 출시

PaddleOCR-VL-1.5 (SOTA 0.9B VLM): 문서 파싱을 위한 최신 플래그십 모델이 이제 출시되었습니다!

94.5% Accuracy on OmniDocBench: 최상위 일반 대형 모델과 전문 문서 파서보다 뛰어납니다.

Real-World Robustness: 첫 번째로 PP-DocLayoutV3 알고리즘을 소개하여 불규칙한 형태 위치를 다룹니다, 5 가지 어려운 시나리오를 정복합니다: Skew, Warping, Scanning, Illumination, and Screen Photography.

Capability Expansion: 이제 Seal Recognition, Text Spotting 을 지원하며 111 개 언어(중국 티베트 문자와 벵골어 포함) 로 확장됩니다.

Long Document Mastery: 자동 교차 페이지 테이블 병합 및 계층적 제목 식별을 지원합니다.

Try it now: HuggingFace 또는 공식 웹사이트에서 이용 가능합니다.

2025.10.16: PaddleOCR 3.3.0 출시

  • PaddleOCR-VL 출시:

모델 소개:PaddleOCR-VL은 문서 파싱에 특화된 SOTA(최고 수준) 및 리소스 효율성 모델입니다. 핵심 구성 요소는 NaViT 스타일의 동적 해상도 시각 인코더와 ERNIE-4.5-0.3B 언어 모델을 통합하여 정확한 요소 인식 (element recognition) 을 가능하게 하는 컴팩트하면서도 강력한 비전 - 언어 모델 (VLM) 인 PaddleOCR-VL-0.9B 입니다.이 혁신적인 모델은 109 개 언어를 효율적으로 지원하며, 텍스트, 표, 수식, 차트 등 복잡한 요소 인식에 탁월한 성능을 발휘하고 최소한의 리소스 소비를 유지합니다. 널리 사용되는 공개 벤치마크와 자체 벤치마크에서 종합적인 평가를 통해 PaddleOCR-VL 은 페이지 레벨 문서 파싱과 요소 레벨 인식 모두에서 SOTA 성능을 달성했습니다. 기존 솔루션보다 크게 우위를 점하며, 최상위 VLMs 와도 강력한 경쟁력을 보이며 빠른 추론 속도를 제공합니다. 이러한 강점들은 실제 시나리오의 실용적인 배포에 매우 적합합니다. 모델은 HuggingFace 에서 출시되었습니다. 누구나 다운로드하고 사용하길 환영합니다! 더 자세한 소개 정보는 PaddleOCR-VL 을 참조하세요.핵심 기능:컴팩트하면서도 강력한 VLM 아키텍처: 우리는 리소스 효율적인 추론을 위해 특별히 설계된 새로운 비전 - 언어 모델을 제시하며, 요소 인식에서 탁월한 성능을 달성했습니다. NaViT 스타일의 동적 고해상도 시각 인코더와 경량 ERNIE-4.5-0.3B 언어 모델을 통합함으로써 모델의 인식 능력과 디코딩 효율성을 크게 향상시켰습니다. 이 통합은 높은 정확도를 유지하면서 계산 요구량을 줄여 효율적이고 실용적인 문서 처리 응용 프로그램에 적합합니다.문서 파싱에서의 SOTA 성능: PaddleOCR-VL 은 페이지 레벨 문서 파싱과 요소 레벨 인식 모두에서 최상위 수준 (state-of-the-art) 성능을 달성했습니다. 기존 파이프라인 기반 솔루션보다 크게 우위를 점하며, 문서 파싱 분야에서 선도적인 비전 - 언어 모델 (VLMs) 과도 강력한 경쟁력을 보였습니다. 또한 텍스트, 표, 수식, 차트 등 복잡한 문서 요소를 인식하는 데 탁월하여, 손글씨 텍스트와 역사적 문서 등 다양한 도전 과제 유형을 포함한 광범위한 콘텐츠 유형에 적합합니다. 이는 매우 다목적이며 다양한 문서 유형과 시나리오에 적합합니다.다국어 지원: PaddleOCR-VL 은 109 개 언어를 지원하며, 중국어, 영어 등 주요 글로벌 언어를 포함하지만 이에 국한되지 않습니다.

일본어 (Japanese), 라틴어 (Latin), 한국어, 그리고 러시아어 (시리릴 문자), 아랍어, 힌디어 (데바나گری 문자), 태국어 등 다양한 문자와 구조를 가진 언어까지도 지원합니다. 이러한 광범위한 언어 지원은 시스템의 다국어 및 글로벌 문서 처리 시나리오 적용성을 크게 향상시켰습니다.

PP-OCRv5 다국어 인식 모델 출시:

  • 라틴 문자 인식의 정확도와 범위를 개선하고, 시리릴, 아랍어, 데바나گری, 테루구, 타밀 등 다른 언어 체계를 추가 지원하여 총 109 가지 언어를 인식합니다. 모델은 2M 파라미터만 사용하며, 일부 모델의 정확도는 이전 세대 대비 40% 이상 향상되었습니다.

2025.08.21: PaddleOCR 3.2.0 출시

  • 모델 추가 기능: 영어, 태국어, 그리스어에서 PP-OCRv5 인식 모델을 훈련, 추론, 배포를 지원합니다.

  • PP-OCRv5 영어 모델은 주 PP-OCRv5 모델에 비해 영어 시나리오에서 11% 개선, 태국어 및 그리스어 인식 모델은 각각 82.68% 및 89.28%의 정확도를 달성합니다.**

  • 영어, 태국어, 그리스어에서 PP-OCRv5 인식 모델을 훈련, 추론, 배포를 지원합니다.

배포 기능 업그레이드:

  • PaddlePaddle 프레임워크 버전 3.1.0 및 3.1.1 을 완전히 지원.

  • PP-OCRv5 C++ 로컬 배포 솔루션을 포괄적으로 업그레이드하여, Linux 와 Windows 를 모두 지원하며, Python 구현과 동일한 기능 평등성과 정확도를 제공합니다.

  • 고성능 추론은 CUDA 12 를 지원하며, Paddle Inference 또는 ONNX Runtime 백엔드를 사용하여 추론 수행이 가능합니다.

  • 고안정성 서비스 기반 배포 솔루션은 이제 완전히 오픈소스로 제공되며, 사용자가 필요에 따라 Docker 이미지 및 SDK 를 커스터마이징할 수 있습니다.

  • 고안정성 서비스 기반 배포 솔루션은 또한 수동으로 구성된 HTTP 요청을 통한 호출을 지원하여, 임의의 프로그래밍 언어에서 클라이언트 측 코드 개발을 가능하게 합니다.

벤치마크 지원:

  • 모든 생산 라인에서 세밀한 벤치마킹이 지원되어, 엔드 투 엔드 추론 시간뿐만 아니라 레이어 및 모듈별 지연 시간을 측정하여 성능 분석에 도움을 줍니다. 벤치마크 기능을 설정하고 사용하는 방법은 다음과 같습니다.

  • 문서에는 메인 하드웨어에서 일반적으로 사용되는 구성의 주요 지표 (예: 추론 지연 시간 및 메모리 사용량) 를 포함하여 배포 참고를 제공합니다.

  • Bug Fixes:- 모델 학습 중 로그 저장 실패 문제를 해결했습니다.

  • 데이터 증강 컴포넌트를 최신 버전의 albumentations 의존성과 호환성을 위해 업그레이드하고, 멀티 프로세스 시나리오에서 tokenizer 패키지를 사용할 때 발생하는 데드락 경고 (deadlock warnings) 를 수정했습니다.

  • PP-StructureV3 설정 파일에서 다른 파이프라인과 비교하여 switch 동작 불일치 (예: use_chart_parsing) 문제를 해결했습니다.

  • Other Enhancements:

  • 코어 의존성과 선택적 의존성을 분리했습니다. 기본 텍스트 인식에는 최소한의 코어 의존성만 필요하며, 문서 분석 및 정보 추출을 위한 추가 의존성은 필요시 설치할 수 있습니다.

  • Windows 환경에서 NVIDIA RTX 50 시리즈 그래픽 카드 지원 활성화; 사용자는 해당 PaddlePaddle 프레임워크 버전을 확인하기 위해 설치 가이드를 참조하세요.

  • PP-OCR 시리즈 모델은 이제 단일 문자 좌표 반환을 지원합니다.

  • AIStudio, ModelScope 및 기타 모델 다운로드 소스를 추가하여 사용자가 모델 다운로드 소스를 지정할 수 있도록 했습니다.

  • PP-Chart2Table 모듈을 통해 차트에서 테이블 변환 (chart-to-table conversion) 지원 추가.

  • 사용성을 개선하기 위해 문서 설명 최적화.

PaddleOCR 공식 웹사이트는 설정 없이 클릭 한 번으로 경험할 수 있는 인터랙티브한 Experience CenterAPIs를 제공합니다.

로컬 사용에 대해서는 필요에 따라 다음 문서를 참조하세요:

PP-OCR 시리즈: PP-OCR 문서 참조
PaddleOCR-VL 시리즈: PaddleOCR-VL 문서 참조
PP-StructureV3: PP-StructureV3 문서 참조
More Capabilities: More Capabilities 문서 참조

  • 모델 ONNX 형식 변환: ONNX 모델 획득.
  • OpenVINO, ONNX Runtime, TensorRT 등의 엔진을 사용하여 추론 가속화 또는 ONNX 형식 모델을 사용하여 추론 수행: 고성능 추론 (High-Performance Inference).
  • 멀티 GPU 및 멀티 프로세스로 추론 가속화: 파이프라인 병렬 추론 (Parallel Inference for Pipelines).
  • C++, C#, Java 등으로 작성된 애플리케이션에 PaddleOCR 통합: 서빙.

⭐ 강력한 OCR 및 문서 분석 기능을 포함한 흥미로운 업데이트와 새로운 릴리스를 계속 추적하기 위해 이 저장소를 스타 (Star) 해주세요!

PaddleOCR은 오늘 여기까지 도달할 수 없었을 것입니다. 우리의 놀라운 커뮤니티에 대한 감사의 인사입니다! 💗 오랜 파트너, 새로운 협력자 및 PaddleOCR 에 열정을 쏟아부으신 모든 분들께 깊은 감사를 표합니다 — 이름을 언급했거나 언급하지 않았던 모두에게.

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0