TurboOCR v3 — 고속 문서 OCR 서버 (C++/CUDA), RTX 5090에서 약 520 img/s 달성
요약
TurboOCR v3는 C++와 CUDA를 기반으로 한 고속 로컬 문서 OCR 서버입니다. RTX 5090 환경에서 초당 약 520장의 이미지를 처리하며, 레이아웃 분석부터 표, 수식, 마크다운 변환까지 지원합니다.
핵심 포인트
- PP-OCRv6 모델 적용으로 처리 속도 대폭 향상
- RTX 5090 기준 약 520 img/s의 고성능 달성
- 레이아웃, 표(HTML), 수식(LaTeX), 마크다운 변환 지원
- C++, TensorRT, gRPC/HTTP 기반의 로컬 셀프 호스팅 방식
TurboOCR은 완전히 로컬에서 실행되는 셀프 호스팅(self-hosted) 방식의 고속 문서 OCR 서버입니다. v3의 새로운 기능은 다음과 같습니다:
속도:
전체 파이프라인이 이제 최신 PP-OCRv6 모델을 사용합니다 (v5에서 업그레이드): FUNSD 데이터셋 기준 (v6 tiny, RTX 5090 사용 시) 약 270 → 약 520 img/s.
여전히 완전히 로컬에서 작동하며, HTTP + gRPC를 지원합니다.
구조화된 파싱 (주요 추가 사항):
엔드 투 엔드(End-to-end) 지원: 레이아웃(layout) → HTML로 변환된 표(tables) → LaTeX로 변환된 수식(formulas) → 읽기 순서 Markdown.
표와 수식은 요청 시 선택적으로 활성화(opt-in)할 수 있으므로, 실제로 필요한 경우에만 비용(연산 자원)을 지불하면 됩니다.
스택: C++, TensorRT FP16, 멀티 스트림(multi-stream), gRPC/HTTP, 직접 PDF 엔드포인트, PP-OCRv6.
리포지토리(Repo): https://github.com/aiptimizer/TurboOCR
제출자: /u/Civil-Image5411
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기