arXiv논문2026. 06. 23. 14:33

무제한 OCR (Unlimited OCR)

요약

Unlimited OCR은 LLM 기반 OCR 모델의 고질적인 문제인 KV 캐시 증가와 속도 저하를 해결하기 위해 제안된 모델입니다. 참조 슬라이딩 윈도우 어텐션(R-SWA)을 통해 일정한 메모리 사용량을 유지하며 수십 페이지의 문서를 효율적으로 전사합니다.

핵심 포인트

R-SWA 기술을 통해 디코딩 시 KV 캐시 메모리 소비를 일정하게 유지
단 한 번의 순전파로 32K 길이의 수십 페이지 문서 전사 가능
OCR뿐만 아니라 ASR, 번역 등 다양한 작업에 적용 가능한 범용 메커니즘
DeepSeek OCR의 높은 압축률과 결합하여 효율성 극대화

최근 DeepSeek OCR로 대표되는 엔드투엔드 (end-to-end) OCR 모델들이 다시 한번 OCR 분야를 주목받게 하고 있습니다. 널리 퍼진 견해는 디코더 (decoder)로 대규모 언어 모델 (LLM)을 채택함으로써 모델이 언어의 사전 분포 (prior distribution)를 활용할 수 있게 되어, OCR 성능이 향상된다는 것입니다. 하지만 단점 또한 명확합니다. 출력 시퀀스 (output sequence)가 길어짐에 따라 누적되는 KV 캐시 (KV cache)가 메모리 소비를 증가시키고 생성 속도를 점진적으로 느리게 만듭니다. 이는 긴 호흡의 복사 작업 중에도 효율성 저하를 보이지 않는 인간의 모습과 극명한 대조를 이룹니다. 본 기술 보고서에서 우리는 인간의 파싱 작업 기억 (parsing working memory)을 모방하도록 설계된 모델인 Unlimited OCR을 제안합니다. DeepSeek OCR을 베이스라인 (baseline)으로 하여, 우리는 디코더의 모든 어텐션 (attention) 레이어를 우리가 제안하는 참조 슬라이딩 윈도우 어텐션 (Reference Sliding Window Attention, R-SWA)으로 교체하였습니다. 이는 전체 디코딩 과정 동안 일정한 KV 캐시를 유지하면서 어텐션 계산 비용을 줄여줍니다. DeepSeek OCR 인코더 (encoder)의 높은 압축률과 우리의 일정한 KV 캐시 설계를 결합함으로써, Unlimited OCR은 32K의 표준 최대 길이 하에서 단 한 번의 순전파 (forward pass)만으로 수십 페이지의 문서를 전사할 수 있습니다. 더 중요한 점은, R-SWA가 범용적인 파싱 어텐션 (parsing attention) 메커니즘이라는 것입니다. OCR을 넘어 ASR (자동 음성 인식), 번역 등의 작업에도 동일하게 적용 가능합니다. 코드와 모델 가중치는 http://github.com/baidu/Unlimited-OCR 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

무제한 OCR (Unlimited OCR)

요약

핵심 포인트

댓글