본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 24. 20:23

Baidu의 신규 출시된 Unlimited-OCR이 단 한 번의 포워드 패스(forward pass)로 수십 페이지를 전사하는 방법

요약

Baidu가 단 한 번의 포워드 패스로 수십 페이지를 전사할 수 있는 Unlimited-OCR을 출시했습니다. 새로운 R-SWA 어텐션 메커니즘을 통해 KV 캐시 문제를 해결하고 대량의 문서 처리 효율을 극대화했습니다.

핵심 포인트

  • R-SWA 메커니즘으로 메모리 사용량 및 생성 속도 저하 문제 해결
  • DeepSeek-OCR 인코더를 기반으로 하며 3B 파라미터 규모의 MoE 모델
  • OmniDocBench v1.6 기준 93.92%의 높은 성능 보고
  • MIT 라이선스로 Hugging Face 및 ModelScope에서 사용 가능

Baidu가 2일 전 Unlimited-OCR을 출시했으며, 단 한 번의 포워드 패스(forward pass)로 수십 페이지를 전사(transcribe)할 수 있다고 주장합니다. 관련 연구 논문을 읽고 게시물을 작성하기로 결정했습니다 (관심 있는 분들을 위한 링크).

해결하려는 문제
이 모델이 타겟팅하는 문제는 기본적으로 잘 알려져 있습니다. 엔드 투 엔드 (end-to-end) OCR 모델은 페이지를 한 번에 하나의 토큰(token)씩 전사하며, 각 새로운 토큰은 지금까지 생성된 모든 내용에 대해 어텐션 (attention)을 수행합니다. 누적되는 KV 캐시 (KV cache)는 메모리 사용량을 높이고 출력이 늘어남에 따라 생성 속도를 점진적으로 느리게 만듭니다. 실제로 이는 20페이지를 처리하는 비용이 1페이지보다 훨씬 더 많이 든다는 것을 의미하며, 이것이 대부분의 파이프라인이 PDF를 페이지 단위로 나누어 처리하고 결과를 결합하는 이유입니다.

해결책
그들의 해결책은 새로운 어텐션 (attention) 메커니즘인 Reference Sliding Window Attention (R-SWA)입니다. 논문에서의 프레임워크는 다음과 같습니다: 사람이 문서를 필사할 때, 이미 작성한 모든 내용을 다시 훑어보는 것이 아니라, 방향을 유지하기 위해 주변 문맥을 살짝 훑어보는 것과 같습니다. R-SWA는 이를 직접적으로 인코딩합니다. 시각적 토큰 (visual tokens, 인코딩된 이미지)은 참조(reference)로 취급되어 생성되는 모든 토큰에 완전히 보이도록 유지되는 반면, 생성된 텍스트는 이전 n개의 토큰(기본값 128개)의 슬라이딩 윈도우 (sliding window)에 대해서만 어텐션 (attention)을 수행합니다.

Deepseek ocr 기반
인코더 (encoder)는 DeepSeek-OCR로부터 상속되었으며, 이는 1024x1024 페이지를 약 256개의 시각적 토큰 (visual tokens)으로 압축합니다. Baidu는 DeepSeek-OCR을 베이스라인으로 삼고 디코더 (decoder)의 모든 어텐션 (attention) 레이어를 R-SWA로 교체했습니다. 그 외의 모든 것, 즉 인코더 (encoder), 16배 이미지 압축, 그리고 MoE 설정 (총 파라미터 3B, 토큰당 활성 파라미터 500M)은 모두 DeepSeek에서 그대로 가져왔습니다.

참고:
벤치마크에서 그들은 OmniDocBench v1.6 기준 93.92%를 보고했으며, 이는 DeepSeek-OCR의 v1.5 기준 87.01%와 대비됩니다. 다만, 이는 제조사 측 보고 수치이며 벤치마크 버전이 약간 다르므로, 확정적인 결론을 내리기 전에 독립적인 평가를 기다려 볼 가치가 있습니다.

이 모델은 MIT 라이선스이며 hugging face와 modelscope에서 사용할 수 있습니다.

hugging face: https://huggingface.co/baidu/Unlimited-OCR
modelscope: https://modelscope.cn/models/PaddlePaddle/Unlimited-OCR
제출자 /u/Hour-Entertainer-478
[링크] [댓글]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0