본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 24. 12:52

Baidu Unlimited OCR: Reference Sliding Window Attention이 어떻게 Document AI를 재정의하는가

요약

Baidu가 KV 캐시 메모리 문제를 해결한 오픈 소스 모델 'Unlimited OCR'을 출시했습니다. Reference Sliding Window Attention(R-SWA) 기술을 통해 긴 문서에서도 일정한 메모리와 지연 시간을 유지하며 고성능 문서 파싱을 수행합니다.

핵심 포인트

  • R-SWA 아키텍처로 문서 길이에 관계없이 일정한 메모리 사용량 유지
  • DeepEncoder를 통한 16배 시각적 토큰 압축 기술 적용
  • DeepSeek OCR 대비 OmniDocBench 성능 및 속도 대폭 개선
  • MIT 라이선스로 공개되어 상업적 이용이 가능한 오픈 소스 모델

Baidu Unlimited OCR: Reference Sliding Window Attention이 어떻게 Document AI를 재정의하는가

Baidu는 LLM 기반 문서 파싱(document parsing)을 괴롭히는 근본적인 KV 캐시(KV cache) 메모리 벽 문제를 해결하는 Unlimited OCRMIT 라이선스로 출시했습니다 (2026년 6월 22일). 핵심적인 아키텍처 혁신인 Reference Sliding Window Attention (R-SWA)는 일정한 메모리와 지연 시간(latency)을 유지하면서 단 한 번의 순전파(forward pass)로 수십 페이지(텍스트, 표, 공식, 읽기 순서)를 전사할 수 있게 합니다.

주요 지표:

  • 파라미터(Parameters): 총 3B, 활성화 파라미터 약 500M (MoE)
  • 컨텍스트 길이(Context Length): 32K 토큰
  • 라이선스: MIT (완전한 오픈 소스, 상업적 이용 가능)
  • Hacker News: #1 (~430 포인트)
  • GitHub Trending: #1 (48시간 이내 3,600개 이상의 스타 획득)

문제점: KV 캐시(KV Cache) 메모리 벽

표준 멀티 헤드 어텐션(multi-head attention)에는 치명적인 확장성 결함이 있습니다. 생성되는 각 토큰마다 새로운 K/V 엔트리가 추가된다는 점입니다. 긴 문서의 경우, 캐시는 출력 길이에 따라 선형적으로 증가하여 생성 속도를 늦추고 VRAM을 소모합니다. 개발자들은 읽기 순서가 깨지고, 페이지 간의 문맥(context)을 놓치며, 페이지 경계에 걸쳐 있는 표 구조를 망가뜨리는 취약한 페이지 청킹(page-chunking) 루프에 의존하게 됩니다.

혁신: Reference Sliding Window Attention (R-SWA)

R-SWA는 인간의 작업 기억(working memory)을 모방하여 어텐션을 두 개의 고정된 크기의 경로로 나눕니다:

경로관찰 대상크기
Global Reference (전역 참조)모든 시각적 토큰 + 프롬프트(prompt)고정됨 (페이지당 256개)
Local Generation (지역 생성)마지막 N개의 출력 토큰128 크기의 슬라이딩 윈도우 (sliding window)

KV 캐시 구현: 제한된 용량을 가진 FIFO 큐(queue)를 사용하며, 각 새로운 토큰이 들어오면 가장 오래된 토큰을 밀어냅니다. 표준 어텐션은 $O(L + T)$로 확장되는 반면, R-SWA는 $O(L + n)$ (여기서 $n = 128$ 토큰)으로, 문서 길이에 관계없이 메모리가 일정하게 유지됩니다.

DeepEncoder (16배 시각적 압축)

SAM-ViT (윈도우 어텐션)를 CLIP-ViT (전역 어텐션)와 계층적으로 결합합니다. 전체 1024x1024px 페이지는 단 256개의 시각적 토큰으로 변환되어, 한 번 인코딩(encoded)된 후 영구적으로 참조됩니다.

R-SWA를 적용한 MoE-LLM 디코더

DeepSeek OCR(훈련된 디코더 전용, 인코더는 고정됨)을 기반으로 구축되었습니다. 모든 표준 어텐션 (Attention) 레이어가 R-SWA로 교체되었습니다. 학습 데이터: 90% PaddleOCR + 10% 합성된 다중 페이지 문서 (multi-page docs).

벤치마크 성능 (Benchmark Performance)

지표 (Metric)Unlimited OCRDeepSeek OCR개선 사항 (Improvement)
OmniDocBench v1.593.23%87.01%+6.22 pp
...

6,000개 토큰 기준, DeepSeek OCR보다 약 35% 더 빠르며, 지연 시간 (latency)이 일정하게 유지됩니다. 즉, 문서 길이에 따라 지연 시간이 증가하지 않습니다.

실제 성능 (Real-World Performance)

한 개발자는 단일 RTX 4090에서 복잡한 일본어 문법 PDF(한자, 히라가나, 영어가 혼합됨)를 시간당 약 200페이지 처리했다고 보고했습니다. 전체 실행 과정에서 속도 저하가 전혀 없었습니다.

커뮤니티 및 오픈 소스 영향 (Community & Open Source Impact)

출시 48시간 이내에:

  • Hugging Face에 8개의 GGUF 양자화 모델 (quantized models) 업로드 (Ollama, LM Studio, Jan 사용 가능)
  • 커뮤니티 포크(forks)를 통한 Apple Silicon MPS 지원
  • akhaliq에 의한 공식 Hugging Face Space 데모
  • 중국 AI 생태계를 위한 ModelScope 미러(mirror)

HN의 Susan Zhang: "이것이 바로 오픈 소스의 모습입니다."

이 모델의 내부 코드네임은 "Unlimited OCR Works"로, Fate/stay night 프랜차이즈의 Unlimited Blade Works를 참조한 것입니다.

향후 응용 분야 (Future Applications)

R-SWA는 범용 파싱 어텐션 (parsing attention) 메커니즘으로 자리매김하고 있습니다. ASR (긴 오디오는 동일한 KV 캐시 장벽 문제에 직면함), 비디오 이해 (video understanding), 코드 생성 (code generation) 모두 이 기술의 혜택을 받을 수 있습니다.

원문은 TekMag에 게시되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0