Baidu Unlimited OCR: Reference Sliding Window Attention이 어떻게 Document AI를 재정의하는가

요약

Baidu가 KV 캐시 메모리 문제를 해결한 오픈 소스 모델 'Unlimited OCR'을 출시했습니다. Reference Sliding Window Attention(R-SWA) 기술을 통해 긴 문서에서도 일정한 메모리와 지연 시간을 유지하며 고성능 문서 파싱을 수행합니다.

핵심 포인트

R-SWA 아키텍처로 문서 길이에 관계없이 일정한 메모리 사용량 유지
DeepEncoder를 통한 16배 시각적 토큰 압축 기술 적용
DeepSeek OCR 대비 OmniDocBench 성능 및 속도 대폭 개선
MIT 라이선스로 공개되어 상업적 이용이 가능한 오픈 소스 모델

Baidu Unlimited OCR: Reference Sliding Window Attention이 어떻게 Document AI를 재정의하는가

Baidu는 LLM 기반 문서 파싱(document parsing)을 괴롭히는 근본적인 KV 캐시(KV cache) 메모리 벽 문제를 해결하는 Unlimited OCR을 MIT 라이선스로 출시했습니다 (2026년 6월 22일). 핵심적인 아키텍처 혁신인 Reference Sliding Window Attention (R-SWA)는 일정한 메모리와 지연 시간(latency)을 유지하면서 단 한 번의 순전파(forward pass)로 수십 페이지(텍스트, 표, 공식, 읽기 순서)를 전사할 수 있게 합니다.

주요 지표:

파라미터(Parameters): 총 3B, 활성화 파라미터 약 500M (MoE)
컨텍스트 길이(Context Length): 32K 토큰
라이선스: MIT (완전한 오픈 소스, 상업적 이용 가능)
Hacker News: #1 (~430 포인트)
GitHub Trending: #1 (48시간 이내 3,600개 이상의 스타 획득)

문제점: KV 캐시(KV Cache) 메모리 벽

표준 멀티 헤드 어텐션(multi-head attention)에는 치명적인 확장성 결함이 있습니다. 생성되는 각 토큰마다 새로운 K/V 엔트리가 추가된다는 점입니다. 긴 문서의 경우, 캐시는 출력 길이에 따라 선형적으로 증가하여 생성 속도를 늦추고 VRAM을 소모합니다. 개발자들은 읽기 순서가 깨지고, 페이지 간의 문맥(context)을 놓치며, 페이지 경계에 걸쳐 있는 표 구조를 망가뜨리는 취약한 페이지 청킹(page-chunking) 루프에 의존하게 됩니다.

혁신: Reference Sliding Window Attention (R-SWA)

R-SWA는 인간의 작업 기억(working memory)을 모방하여 어텐션을 두 개의 고정된 크기의 경로로 나눕니다:

경로	관찰 대상	크기
Global Reference (전역 참조)	모든 시각적 토큰 + 프롬프트(prompt)	고정됨 (페이지당 256개)
Local Generation (지역 생성)	마지막 N개의 출력 토큰	128 크기의 슬라이딩 윈도우 (sliding window)

KV 캐시 구현: 제한된 용량을 가진 FIFO 큐(queue)를 사용하며, 각 새로운 토큰이 들어오면 가장 오래된 토큰을 밀어냅니다. 표준 어텐션은 $O(L + T)$로 확장되는 반면, R-SWA는 $O(L + n)$ (여기서 $n = 128$ 토큰)으로, 문서 길이에 관계없이 메모리가 일정하게 유지됩니다.

DeepEncoder (16배 시각적 압축)

SAM-ViT (윈도우 어텐션)를 CLIP-ViT (전역 어텐션)와 계층적으로 결합합니다. 전체 1024x1024px 페이지는 단 256개의 시각적 토큰으로 변환되어, 한 번 인코딩(encoded)된 후 영구적으로 참조됩니다.

R-SWA를 적용한 MoE-LLM 디코더

DeepSeek OCR(훈련된 디코더 전용, 인코더는 고정됨)을 기반으로 구축되었습니다. 모든 표준 어텐션 (Attention) 레이어가 R-SWA로 교체되었습니다. 학습 데이터: 90% PaddleOCR + 10% 합성된 다중 페이지 문서 (multi-page docs).

벤치마크 성능 (Benchmark Performance)

지표 (Metric)	Unlimited OCR	DeepSeek OCR	개선 사항 (Improvement)
OmniDocBench v1.5	93.23%	87.01%	+6.22 pp
...

6,000개 토큰 기준, DeepSeek OCR보다 약 35% 더 빠르며, 지연 시간 (latency)이 일정하게 유지됩니다. 즉, 문서 길이에 따라 지연 시간이 증가하지 않습니다.

실제 성능 (Real-World Performance)

한 개발자는 단일 RTX 4090에서 복잡한 일본어 문법 PDF(한자, 히라가나, 영어가 혼합됨)를 시간당 약 200페이지 처리했다고 보고했습니다. 전체 실행 과정에서 속도 저하가 전혀 없었습니다.

커뮤니티 및 오픈 소스 영향 (Community & Open Source Impact)

출시 48시간 이내에:

Hugging Face에 8개의 GGUF 양자화 모델 (quantized models) 업로드 (Ollama, LM Studio, Jan 사용 가능)
커뮤니티 포크(forks)를 통한 Apple Silicon MPS 지원
akhaliq에 의한 공식 Hugging Face Space 데모
중국 AI 생태계를 위한 ModelScope 미러(mirror)

HN의 Susan Zhang: "이것이 바로 오픈 소스의 모습입니다."

이 모델의 내부 코드네임은 "Unlimited OCR Works"로, Fate/stay night 프랜차이즈의 Unlimited Blade Works를 참조한 것입니다.

향후 응용 분야 (Future Applications)

R-SWA는 범용 파싱 어텐션 (parsing attention) 메커니즘으로 자리매김하고 있습니다. ASR (긴 오디오는 동일한 KV 캐시 장벽 문제에 직면함), 비디오 이해 (video understanding), 코드 생성 (code generation) 모두 이 기술의 혜택을 받을 수 있습니다.

원문은 TekMag에 게시되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Baidu Unlimited OCR: Reference Sliding Window Attention이 어떻게 Document AI를 재정의하는가

요약

핵심 포인트

Baidu Unlimited OCR: Reference Sliding Window Attention이 어떻게 Document AI를 재정의하는가

문제점: KV 캐시(KV Cache) 메모리 벽

혁신: Reference Sliding Window Attention (R-SWA)

DeepEncoder (16배 시각적 압축)

R-SWA를 적용한 MoE-LLM 디코더

벤치마크 성능 (Benchmark Performance)

실제 성능 (Real-World Performance)

커뮤니티 및 오픈 소스 영향 (Community & Open Source Impact)

향후 응용 분야 (Future Applications)

댓글