엄청난 속도에 정말 놀랐습니다!
요약
Baidu가 공개한 오픈 소스 모델 Unlimited-OCR은 R-SWA 기술을 통해 긴 문서도 매우 빠르고 안정적으로 처리합니다. 기존의 페이지별 순차 처리 방식에서 벗어나 엔드투엔드 방식으로 문서 전체의 구조와 맥락을 한 번에 파악합니다.
핵심 포인트
- R-SWA 기술로 KV Cache를 일정하게 유지하여 속도와 안정성 확보
- OmniDocBench에서 DeepSeek-OCR보다 높은 93점 기록
- 단순 글자 인식을 넘어 긴 문서의 구조와 논리를 이해하는 엔진으로 진화
- 문맥 단절과 형식 불일치 문제를 해결한 엔드투엔드 처리 방식
이 속도는 정말 말도 안 되게 빠릅니다! 와!
최신 오픈 소스인 Unlimited-OCR은 한 번에 수백 페이지의 문서를 처리할 수 있으며, 속도 또한 매우 안정적입니다.
이 모델은 Baidu가 방금 hugging face에 공개한 것으로, 핵심 혁신은 R-SWA (Reference Sliding Window Attention)입니다.
이는 모델이 디코딩 (decoding)할 때 KV Cache를 일정하게 유지하여, 문서 페이지 수가 증가함에 따라 폭발적으로 증가하지 않도록 합니다.
그 결과, 이미지 한 장이나 여러 페이지의 PDF를 직접 넣기만 하면 한 번에 분석을 완료할 수 있으며, 속도와 안정성 모두 기존의 페이지별 순차 처리 방식보다 훨씬 뛰어납니다.
OmniDocBench에서 93점을 기록하며 DeepSeek-OCR보다 6%포인트 더 높은 점수를 받았습니다.
이는 단순히 정확도가 향상된 것이 아니라, 긴 문서 OCR (Optical Character Recognition)의 워크플로우를 "블록 분할 + 외부 스케줄러 결합" 방식에서 진정한 엔드투엔드 (end-to-end) 방식의 일관된 처리로 변화시킨 것입니다.
이전에는 다중 페이지 문서를 작업할 때 문맥 단절과 형식 불일치가 가장 큰 문제였으나, 이제 모델이 문서 전체의 구조, 레이아웃 및 논리적 관계를 한 번에 파악할 수 있게 되어 출력 품질이 자연스럽게 한 단계 격상되었습니다.
이는 사실상 OCR을 단순한 "글자 인식 도구"에서 "긴 문서 이해 엔진"으로 한 단계 더 진보시킨 것입니다.
기술적 경로가 매우 명확하고 실용적입니다.
역시 Baidu의 OCR은 독보적이며, 앞서 나가고 있습니다.
모델 주소는 댓글창을 확인하세요~ 👇
AI 자동 생성 콘텐츠
본 콘텐츠는 X @berryxia (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기