Hugging Face의 PP-OCRv6: 1.5M에서 34.5M 파라미터로 구현하는 50개 언어 OCR

PP-OCRv6 온라인 데모

ONNX Runtime CPU 백엔드를 사용하는 PP-OCRv6 OCR

PP-OCRv6를 온라인에서 평가한 후, PaddlePaddle, Transformers 또는 ONNX Runtime 백엔드를 사용하여 가볍고 프로덕션 준비가 된 (production-ready) OCR을 통합해 보세요.

PP-OCRv6는 PaddleOCR의 범용 OCR 모델 제품군의 최신 세대입니다. 이 모델은 문서, 스크린샷, 다국어 이미지, 디지털 디스플레이, 산업용 라벨 및 장면 텍스트 (scene text) 전반에 걸쳐 실제 환경의 텍스트 탐지 (detection) 및 인식 (recognition)을 위해 설계되었습니다.

이 모델 제품군은 1.5M에서 34.5M 파라미터까지 확장되며, tiny, small, medium의 세 가지 계층으로 나뉩니다. medium 및 small 계층은 간체 중국어, 번체 중국어, 영어, 일본어 및 46개의 라틴 문자 언어를 포함하여 50개 언어를 지원합니다. PP-OCRv6를 온라인에서 빠르게 체험해 보세요: PP-OCRv6 온라인 데모.

PaddleOCR의 공식 사내 다중 시나리오 OCR 벤치마크에서, PP-OCRv6_medium은 86.2% 탐지 Hmean 및 83.2% 인식 정확도에 도달했습니다. PP-OCRv5_server와 비교했을 때, 텍스트 탐지는 +4.6%포인트, 텍스트 인식은 +5.1%포인트 향상되었습니다.

PP-OCRv6는 실용적인 OCR 요구 사항에 집중합니다: 소형 모델과 유연한 배포 옵션을 통해 정확하고 구조화된 텍스트 출력을 생성하는 것입니다. VLM 시대에도 왜 특화된 OCR 모델이 여전히 유용한지에 대한 더 심도 있는 논의는 이전 블로그인 'Hugging Face의 PP-OCRv5: OCR에 대한 특화된 접근 방식'을 참조하십시오.

PP-OCRv6는 탐지 및 인식 전반에 걸쳐 아키텍처, 학습 및 데이터 개선 사항을 도입했습니다. 주요 설계 목표는 다양한 배포 설정에 적합한 모델 크기를 유지하면서 OCR 정확도를 향상시키는 것입니다.

PP-OCRv6는 다양한 모델 크기와 OCR 정확도 수준을 아우르는 세 가지 모델 계층을 제공합니다.

모델	모델 크기	탐지 Hmean (Detection Hmean)	인식 정확도 (Recognition accuracy)	일반적인 애플리케이션 시나리오
PP-OCRv6_tiny	1.5M 파라미터	80.6%	73.5%	엣지 디바이스 (Edge devices), 경량 로컬 OCR, 지연 시간에 민슐한 데모, 제약이 있는 환경
PP-OCRv6_small	7.7M 파라미터	84.1%	81.3%	모바일, 데스크톱, 균형 잡힌 OCR 서비스, 낮은 연산 비용의 다국어 OCR
PP-OCRv6_medium	34.5M 파라미터	86.2%	83.2%	정확도 중심의 OCR, 서버 측 파이프라인, 산업용 OCR, 문서 인입 (Document ingestion), 다국어 OCR

PP-OCRv6는 텍스트 탐지 (Text detection) 및 텍스트 인식 (Text recognition)을 위한 통합 백본 (Backbone)으로 PPLCNetV4를 사용합니다.

개발자들에게 가장 큰 이점은 모델 제품군 전체에 걸친 일관성입니다. tiny, small, medium 계층은 서로 무관한 모델이 아닙니다. 이들은 동일한 OCR 제품군의 일부이며 공통된 아키텍처 방향을 공유합니다.

텍스트 탐지는 OCR 파이프라인의 첫 번째 단계입니다. 탐지 품질은 인식기 (Recognizer)로 전달되는 크롭 (Crops) 이미지에 영향을 미치며, 품질이 낮은 크롭은 종종 더 낮은 인식 결과로 이어집니다.

PP-OCRv6는 탐지 모듈을 RepLKFPN으로 업그레이드했습니다. 이는 추론 효율성을 유지하면서 다중 스케일 (Multi-scale) 텍스트 탐지를 위해 설계된 경량 대형 커널 특징 피라미드 네트워크 (Large-kernel feature pyramid network)입니다.

이는 텍스트가 작거나, 밀집되어 있거나, 회전되어 있거나, 저해상도이거나, 복잡한 배경에 포함되어 있을 수 있는 실제 OCR 입력 상황에서 매우 유용합니다.

텍스트 인식을 위해 PP-OCRv6는 EncoderWithLightSVTR을 사용합니다. 이는 도전적인 텍스트 크롭 이미지에 대한 인식 품질을 향상시키기 위해 로컬 컨텍스트 모델링 (Local context modeling)과 글로벌 어텐션 (Global attention)을 결합합니다.

이러한 인식 성능의 향상은 다국어 텍스트, 화면 텍스트, 산업용 문자, 특수 기호, 밀집된 텍스트 및 노이즈가 있는 이미지 영역에 특히 유용합니다.

medium 및 small 계층은 하나의 모델 제품군에서 50개 언어를 지원하며, 간체 중국어, 번체 중국어, 영어, 일본어 및 46개의 라틴 문자 기반 언어를 포함합니다.

이는 일반적인 다국어 OCR 시나리오에서 별도의 OCR 모델을 사용할 필요성을 줄여줍니다.

PaddleOCR 설치:

pip install paddleocr

Paddle Inference(기본 백엔드)로 OCR 실행:

from paddleocr import PaddleOCR
# Model: PP-OCRv6_medium(Default)
# Backend: Paddle Inference(Default)
...

OCR 결과는 시각화 이미지 및 구조화된 JSON 출력으로 저장할 수 있습니다. 이렇게 구조화된 출력은 문서 파싱 (document parsing), 검색 (search), 추출 (extraction), RAG, 분석 (analytics) 또는 에이전트 워크플로 (agent workflows)와 같은 다운스트림 시스템에서 사용할 수 있습니다.

PP-OCRv6는 PaddleOCR을 통해 여러 추론 백엔드 (inference backends)와 함께 사용할 수 있습니다. PaddleOCR 3.7은 통합된 추론 엔진 (inference-engine) 인터페이스를 제공하며, 여기서 engine은 하위 런타임 (underlying runtime)을 선택하고 관련 설정은 파이프라인 (pipeline) 또는 모듈 API를 통해 전달될 수 있습니다.

백엔드 (Backend)	설명 (Description)
Transformers	지원되는 PaddleOCR 모델을 위한 Hugging Face / PyTorch 중심의 추론 경로
ONNX Runtime	ONNX 기반 배포 환경을 위한 이식 가능한 추론 경로
Paddle Inference	네이티브 Paddle 추론 형식

Hugging Face 사용자들을 위해, PaddleOCR은 선택된 OCR 및 문서 파싱 모델을 Transformers 백엔드로 실행하는 것을 지원합니다. 이는 다음과 같이 활성화할 수 있습니다:

engine="transformers"

PaddleOCR에서 Transformers 백엔드가 작동하는 방식에 대한 자세한 내용은 다음을 참조하세요:

Transformer 백엔드로 PP-OCRv6 예제 실행:

from paddleocr import PaddleOCR
# Model: PP-OCRv6_medium(Default)
# Backend: transformers
...

engine="onnxruntime"을 통해 ONNX Runtime을 사용하는 환경을 위한 ONNX 변형 모델들도 PP-OCRv6 컬렉션에서 사용할 수 있습니다:

from paddleocr import PaddleOCR
# Model: PP-OCRv6_medium(Default)
# Backend: ONNX Runtime
...

이러한 백엔드 옵션들을 통해, Hugging Face Hub의 동일한 OCR 모델 제품군을 유지하면서도 PP-OCRv6를 다양한 런타임 환경에서 사용할 수 있습니다.

PP-OCRv6는 실제 환경의 텍스트 탐지 (text detection) 및 인식 (recognition)을 위해 가볍고 다국어를 지원하는 OCR 모델 제품군으로 PaddleOCR을 확장합니다.

이번 출시에는 **1.5M에서 34.5M 파라미터 (parameters)**에 이르는 세 가지 모델 계층이 포함되며, 최대 50개 언어 OCR 지원, PP-OCRv5_server 대비 향상된 탐지 (detection) 및 인식 (recognition) 정확도, 그리고 Hugging Face Hub에서 제공되는 safetensors, Paddle inference models, ONNX models를 포함한 다양한 모델 형식이 포함됩니다.

호스팅된 Hugging Face Space 및 사용 가능한 PaddleOCR 추론 (inference) 백엔드와 함께, PP-OCRv6는 평가 및 통합을 위한 여러 진입점을 제공합니다:

Online Demo: PP-OCRv6 Online Demo

Model Collection: PP-OCRv6 Collection

Transformers Backend Blog: PaddleOCR with Transformers Backend

PaddleOCR Documentation: PP-OCRv6 Documentation

PaddleOCR: PP-OCRv6 Documentation

PaddleOCR Official Website: https://www.paddleocr.com

온라인 데모를 통해 PP-OCRv6를 평가하고, Collection에서 사용 가능한 모델 자산을 탐색하며, 귀하의 OCR 워크플로우에 맞는 추론 (inference) 백엔드를 사용할 수 있습니다.

Hugging Face의 PP-OCRv6: 1.5M에서 34.5M 파라미터로 구현하는 50개 언어 OCR

요약

핵심 포인트

PP-OCRv6 온라인 데모

댓글