r/LocalLLaMA분석2026. 06. 24. 15:09

Unlimited-OCR이 ModelScope에 출시되었습니다! 단일 이미지, 다중 페이지 문서 및 PDF를 위한 원샷 파싱용 3.3B 다국어

요약

ModelScope에 출시된 Unlimited-OCR은 단일 이미지부터 다중 페이지 PDF까지 지원하는 3.3B 파라미터 규모의 다국어 모델입니다. 전체 문서 파싱과 32K의 긴 출력 길이를 지원하며, OpenAI 호환 스트리밍 요청이 가능합니다.

핵심 포인트

자르기 방식이 아닌 전체 문서 파싱(Full-document parsing) 지원
긴 OCR 시퀀스를 위한 32K 출력 길이 제공
다양한 레이아웃 대응을 위한 Base 및 gundam 이미지 모드 탑재
OpenAI 호환 스트리밍 및 SGLang 서빙 지원

자르기 방식의 영역 OCR (cropped-region OCR) 대신 전체 문서 파싱 (Full-document parsing) 지원
긴 OCR 시퀀스를 위한 32K 출력 길이 (32K output length)
다양한 문서 레이아웃을 위한 Base 및 gundam 이미지 모드
OpenAI 호환 스트리밍 요청 (OpenAI-compatible streaming requests)을 지원하는 Transformers 추론 + SGLang 서빙
DeepSeek-OCR 스타일의 문서 파싱을 더욱 발전시키기 위해 구축되었습니다.
source: https://x.com/ModelScope2022/status/2069335055965491525
https://github.com/baidu/Unlimited-OCR
submitted by /u/Sporeboss
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Unlimited-OCR이 ModelScope에 출시되었습니다! 단일 이미지, 다중 페이지 문서 및 PDF를 위한 원샷 파싱용 3.3B 다국어

요약

핵심 포인트

댓글