Baidu Unlimited OCR: Reference Sliding Window Attention이 어떻게 Document AI를 재정의하는가
요약
Baidu가 KV 캐시 메모리 문제를 해결한 오픈 소스 모델 'Unlimited OCR'을 출시했습니다. Reference Sliding Window Attention(R-SWA) 기술을 통해 긴 문서에서도 일정한 메모리와 지연 시간을 유지하며 고성능 문서 파싱을 수행합니다.
핵심 포인트
- R-SWA 아키텍처로 문서 길이에 관계없이 일정한 메모리 사용량 유지
- DeepEncoder를 통한 16배 시각적 토큰 압축 기술 적용
- DeepSeek OCR 대비 OmniDocBench 성능 및 속도 대폭 개선
- MIT 라이선스로 공개되어 상업적 이용이 가능한 오픈 소스 모델
Baidu Unlimited OCR: Reference Sliding Window Attention이 어떻게 Document AI를 재정의하는가
Baidu는 LLM 기반 문서 파싱(document parsing)을 괴롭히는 근본적인 KV 캐시(KV cache) 메모리 벽 문제를 해결하는 Unlimited OCR을 MIT 라이선스로 출시했습니다 (2026년 6월 22일). 핵심적인 아키텍처 혁신인 Reference Sliding Window Attention (R-SWA)는 일정한 메모리와 지연 시간(latency)을 유지하면서 단 한 번의 순전파(forward pass)로 수십 페이지(텍스트, 표, 공식, 읽기 순서)를 전사할 수 있게 합니다.
주요 지표:
- 파라미터(Parameters): 총 3B, 활성화 파라미터 약 500M (MoE)
- 컨텍스트 길이(Context Length): 32K 토큰
- 라이선스: MIT (완전한 오픈 소스, 상업적 이용 가능)
- Hacker News: #1 (~430 포인트)
- GitHub Trending: #1 (48시간 이내 3,600개 이상의 스타 획득)
문제점: KV 캐시(KV Cache) 메모리 벽
표준 멀티 헤드 어텐션(multi-head attention)에는 치명적인 확장성 결함이 있습니다. 생성되는 각 토큰마다 새로운 K/V 엔트리가 추가된다는 점입니다. 긴 문서의 경우, 캐시는 출력 길이에 따라 선형적으로 증가하여 생성 속도를 늦추고 VRAM을 소모합니다. 개발자들은 읽기 순서가 깨지고, 페이지 간의 문맥(context)을 놓치며, 페이지 경계에 걸쳐 있는 표 구조를 망가뜨리는 취약한 페이지 청킹(page-chunking) 루프에 의존하게 됩니다.
혁신: Reference Sliding Window Attention (R-SWA)
R-SWA는 인간의 작업 기억(working memory)을 모방하여 어텐션을 두 개의 고정된 크기의 경로로 나눕니다:
| 경로 | 관찰 대상 | 크기 |
|---|---|---|
| Global Reference (전역 참조) | 모든 시각적 토큰 + 프롬프트(prompt) | 고정됨 (페이지당 256개) |
| Local Generation (지역 생성) | 마지막 N개의 출력 토큰 | 128 크기의 슬라이딩 윈도우 (sliding window) |
KV 캐시 구현: 제한된 용량을 가진 FIFO 큐(queue)를 사용하며, 각 새로운 토큰이 들어오면 가장 오래된 토큰을 밀어냅니다. 표준 어텐션은 $O(L + T)$로 확장되는 반면, R-SWA는 $O(L + n)$ (여기서 $n = 128$ 토큰)으로, 문서 길이에 관계없이 메모리가 일정하게 유지됩니다.
DeepEncoder (16배 시각적 압축)
SAM-ViT (윈도우 어텐션)를 CLIP-ViT (전역 어텐션)와 계층적으로 결합합니다. 전체 1024x1024px 페이지는 단 256개의 시각적 토큰으로 변환되어, 한 번 인코딩(encoded)된 후 영구적으로 참조됩니다.
R-SWA를 적용한 MoE-LLM 디코더
DeepSeek OCR(훈련된 디코더 전용, 인코더는 고정됨)을 기반으로 구축되었습니다. 모든 표준 어텐션 (Attention) 레이어가 R-SWA로 교체되었습니다. 학습 데이터: 90% PaddleOCR + 10% 합성된 다중 페이지 문서 (multi-page docs).
벤치마크 성능 (Benchmark Performance)
| 지표 (Metric) | Unlimited OCR | DeepSeek OCR | 개선 사항 (Improvement) |
|---|---|---|---|
| OmniDocBench v1.5 | 93.23% | 87.01% | +6.22 pp |
| ... | |||
6,000개 토큰 기준, DeepSeek OCR보다 약 35% 더 빠르며, 지연 시간 (latency)이 일정하게 유지됩니다. 즉, 문서 길이에 따라 지연 시간이 증가하지 않습니다.
실제 성능 (Real-World Performance)
한 개발자는 단일 RTX 4090에서 복잡한 일본어 문법 PDF(한자, 히라가나, 영어가 혼합됨)를 시간당 약 200페이지 처리했다고 보고했습니다. 전체 실행 과정에서 속도 저하가 전혀 없었습니다.
커뮤니티 및 오픈 소스 영향 (Community & Open Source Impact)
출시 48시간 이내에:
- Hugging Face에 8개의 GGUF 양자화 모델 (quantized models) 업로드 (Ollama, LM Studio, Jan 사용 가능)
- 커뮤니티 포크(forks)를 통한 Apple Silicon MPS 지원
- akhaliq에 의한 공식 Hugging Face Space 데모
- 중국 AI 생태계를 위한 ModelScope 미러(mirror)
HN의 Susan Zhang: "이것이 바로 오픈 소스의 모습입니다."
이 모델의 내부 코드네임은 "Unlimited OCR Works"로, Fate/stay night 프랜차이즈의 Unlimited Blade Works를 참조한 것입니다.
향후 응용 분야 (Future Applications)
R-SWA는 범용 파싱 어텐션 (parsing attention) 메커니즘으로 자리매김하고 있습니다. ASR (긴 오디오는 동일한 KV 캐시 장벽 문제에 직면함), 비디오 이해 (video understanding), 코드 생성 (code generation) 모두 이 기술의 혜택을 받을 수 있습니다.
원문은 TekMag에 게시되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기