본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 04. 30. 05:43

Turbo-OCR 업데이트: 레이아웃 모델 및 다국어 지원

요약

Turbo-OCR이 레이아웃 모델 지원과 다국어 기능을 업데이트하며 성능을 크게 향상시켰습니다. PP-StructureV3를 통합하여 정확한 레이아웃 감지를 가능하게 했으며, 라틴 문자 외에도 중국어, 일본어, 한국어, 아랍어 등 다양한 언어를 지원합니다. C++/CUDA 기반의 최적화된 서버 구조 덕분에 고성능 벤치마크 결과를 보여주며 대용량 이미지 및 PDF 처리에 적합합니다.

핵심 포인트

  • 레이아웃 모델(PP-StructureV3) 추가로 복잡한 문서의 레이아웃 감지 기능이 강화되었습니다.
  • 다국어 지원을 통해 중국어, 일본어, 한국어, 아랍어 등 다양한 언어 처리가 가능해졌습니다.
  • C++/CUDA 기반으로 최적화되어 고성능(예: 초당 100~1000개 이미지 처리)의 OCR 성능을 제공합니다.
  • gRPC/HTTP 및 직접 PDF 엔드포인트를 지원하여 통합성이 높고 대용량 처리에 효율적입니다.

18 일 전의 게시물 에 대한 후속 보고서로, C++/CUDA OCR 서버에 대한 두 가지 추가 기능이 있습니다.

새로운 기능:

  • 레이아웃 모델 (Layout model): 레이아웃 감지 (detection) 를 위해 PP-StructureV3 를 추가했습니다.
  • 다국어 지원 (Multilingual): 이제 라틴 문자 (Latin-only) 만 지원하는 것이 아닙니다. 중국어, 일본어, 한국어, 키릴 문자, 아랍어 및 라틴 문자 기반 언어를 지원합니다.

동일한 스택: C++, TensorRT FP16, 다중 스트림, gRPC/HTTP, 직접 PDF 엔드포인트.

벤치마크 (Linux / RTX 5090 / CUDA 13.2):

  • 텍스트가 매우 많은 이미지: 초당 100 개 이상의 이미지 처리
  • 희소/저텍스트 이미지: 초당 1,000 개 이상의 이미지 처리
  • FUNSD 데이터셋 기준 초당 270 토큰 처리 속도

출처: github.com/aiptimizer/TurboOCR

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0