X요약2026. 06. 23. 01:45

엄청난 속도에 정말 놀랐습니다!

요약

Baidu가 공개한 오픈 소스 모델 Unlimited-OCR은 R-SWA 기술을 통해 긴 문서도 매우 빠르고 안정적으로 처리합니다. 기존의 페이지별 순차 처리 방식에서 벗어나 엔드투엔드 방식으로 문서 전체의 구조와 맥락을 한 번에 파악합니다.

이 속도는 정말 말도 안 되게 빠릅니다! 와!

최신 오픈 소스인 Unlimited-OCR은 한 번에 수백 페이지의 문서를 처리할 수 있으며, 속도 또한 매우 안정적입니다.

이 모델은 Baidu가 방금 hugging face에 공개한 것으로, 핵심 혁신은 R-SWA (Reference Sliding Window Attention)입니다.

이는 모델이 디코딩 (decoding)할 때 KV Cache를 일정하게 유지하여, 문서 페이지 수가 증가함에 따라 폭발적으로 증가하지 않도록 합니다.

그 결과, 이미지 한 장이나 여러 페이지의 PDF를 직접 넣기만 하면 한 번에 분석을 완료할 수 있으며, 속도와 안정성 모두 기존의 페이지별 순차 처리 방식보다 훨씬 뛰어납니다.

OmniDocBench에서 93점을 기록하며 DeepSeek-OCR보다 6%포인트 더 높은 점수를 받았습니다.

이는 단순히 정확도가 향상된 것이 아니라, 긴 문서 OCR (Optical Character Recognition)의 워크플로우를 "블록 분할 + 외부 스케줄러 결합" 방식에서 진정한 엔드투엔드 (end-to-end) 방식의 일관된 처리로 변화시킨 것입니다.

이전에는 다중 페이지 문서를 작업할 때 문맥 단절과 형식 불일치가 가장 큰 문제였으나, 이제 모델이 문서 전체의 구조, 레이아웃 및 논리적 관계를 한 번에 파악할 수 있게 되어 출력 품질이 자연스럽게 한 단계 격상되었습니다.

이는 사실상 OCR을 단순한 "글자 인식 도구"에서 "긴 문서 이해 엔진"으로 한 단계 더 진보시킨 것입니다.

기술적 경로가 매우 명확하고 실용적입니다.
역시 Baidu의 OCR은 독보적이며, 앞서 나가고 있습니다.

모델 주소는 댓글창을 확인하세요~ 👇

AI 자동 생성 콘텐츠