Unlimited-OCR이 ModelScope에 출시되었습니다! 단일 이미지, 다중 페이지 문서 및 PDF를 위한 원샷 파싱용 3.3B 다국어
요약
ModelScope에 출시된 Unlimited-OCR은 단일 이미지부터 다중 페이지 PDF까지 지원하는 3.3B 파라미터 규모의 다국어 모델입니다. 전체 문서 파싱과 32K의 긴 출력 길이를 지원하며, OpenAI 호환 스트리밍 요청이 가능합니다.
핵심 포인트
- 자르기 방식이 아닌 전체 문서 파싱(Full-document parsing) 지원
- 긴 OCR 시퀀스를 위한 32K 출력 길이 제공
- 다양한 레이아웃 대응을 위한 Base 및 gundam 이미지 모드 탑재
- OpenAI 호환 스트리밍 및 SGLang 서빙 지원
자르기 방식의 영역 OCR (cropped-region OCR) 대신 전체 문서 파싱 (Full-document parsing) 지원
긴 OCR 시퀀스를 위한 32K 출력 길이 (32K output length)
다양한 문서 레이아웃을 위한 Base 및 gundam 이미지 모드
OpenAI 호환 스트리밍 요청 (OpenAI-compatible streaming requests)을 지원하는 Transformers 추론 + SGLang 서빙
DeepSeek-OCR 스타일의 문서 파싱을 더욱 발전시키기 위해 구축되었습니다.
source: https://x.com/ModelScope2022/status/2069335055965491525
https://github.com/baidu/Unlimited-OCR
submitted by /u/Sporeboss
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기