TurboOCR v3 — 고속 문서 OCR 서버 (C++/CUDA), RTX 5090에서 약 520 img/s 달성 - Insights | Molayo

TurboOCR은 완전히 로컬에서 실행되는 셀프 호스팅(self-hosted) 방식의 고속 문서 OCR 서버입니다. v3의 새로운 기능은 다음과 같습니다:

속도:

전체 파이프라인이 이제 최신 PP-OCRv6 모델을 사용합니다 (v5에서 업그레이드): FUNSD 데이터셋 기준 (v6 tiny, RTX 5090 사용 시) 약 270 → 약 520 img/s.
여전히 완전히 로컬에서 작동하며, HTTP + gRPC를 지원합니다.

구조화된 파싱 (주요 추가 사항):

엔드 투 엔드(End-to-end) 지원: 레이아웃(layout) → HTML로 변환된 표(tables) → LaTeX로 변환된 수식(formulas) → 읽기 순서 Markdown.
표와 수식은 요청 시 선택적으로 활성화(opt-in)할 수 있으므로, 실제로 필요한 경우에만 비용(연산 자원)을 지불하면 됩니다.

스택: C++, TensorRT FP16, 멀티 스트림(multi-stream), gRPC/HTTP, 직접 PDF 엔드포인트, PP-OCRv6.
리포지토리(Repo): https://github.com/aiptimizer/TurboOCR
제출자: /u/Civil-Image5411

Insights

TurboOCR v3 — 고속 문서 OCR 서버 (C++/CUDA), RTX 5090에서 약 520 img/s 달성

요약

핵심 포인트

댓글

KernelSight-LM: 커널 수준의 LLM 추론 시뮬레이터

Agent-Ready Commerce, 파트 8: 생성된 주장(Claims)에는 검토, 증거 및 만료가 필요합니다

에이전트 준비 완료 커머스(Agent-Ready Commerce), 파트 9: 증거(Evidence)와 감사(Audit)는 제품의 일부입니다

Google은 브라우저를 만드는 데 수년을 보냈습니다.

Agent-Ready Commerce, 파트 8: 생성된 주장(Claims)에는 검토, 증거 및 만료가 필요합니다

에이전트 준비 완료 커머스(Agent-Ready Commerce), 파트 9: 증거(Evidence)와 감사(Audit)는 제품의 일부입니다

Google은 브라우저를 만드는 데 수년을 보냈습니다.