본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 23. 14:46

세상에, 이번에 DeepSeek의 핵심 인재를 완전히 빼앗아 왔네요!

요약

Baidu가 공개한 Unlimited OCR은 단일 추론으로 수십 페이지의 문서를 처리하는 One-Shot Long-Horizon Parsing 기술을 선보였습니다. R-SWA 메커니즘을 통해 KV Cache 크기를 일정하게 유지하며 긴 문맥을 효율적으로 이해합니다.

핵심 포인트

  • 단일 샷 추론으로 다중 페이지 문서를 한 번에 전사 가능
  • R-SWA 메커니즘을 통한 효율적인 슬라이딩 윈도우 어텐션 구현
  • 32K 컨텍스트 지원 및 문서 길이에 관계없는 일정한 KV Cache 크기
  • 기존 페이지별 반복 처리 방식의 한계를 극복한 문서 이해 엔진

세상에, 이번에 DeepSeek의 "벽을 파고 들어갔네요(인재를 빼앗아 왔네요)"!

어젯밤 HuggingFace를 보다가 이 흥미로운 OCR 오픈소스 모델과 그 뒤에 숨겨진 재미있는 이야기를 발견했습니다.

이 OCR 모델은 기존의 전통적인 OCR 모델과는 완전히 다릅니다!
속도와 정확도 면에서 정말 무적입니다~~

먼저 배경을 말씀드리자면, 잘 아시는 분들은 아시겠지만 제가 최근 몇 차례 OCR 평가(이전 제 글들을 참고해 주세요)를 진행하며 18개의 문서, 6가지 시나리오를 테스트하고 로컬 워크플로우(Workflow)를 구축해 본 적이 있습니다. 덕분에 OCR의 능력 한계에 대해 어느 정도 체감하고 있습니다.

이전 평가에서 가장 골치 아팠던 것은 정확도가 아니라, 다중 페이지 문서의 워크플로우였습니다. 모든 모델은 페이지별로 처리합니다.

매 페이지마다 기억을 비우고, 외부 스케줄러를 사용하여 결과를 이어 붙입니다.
본질적으로는 for-loop(반복문)일 뿐, 진정한 장기 문맥 이해(Long-range understanding)가 아닙니다.

하지만 이번에 Baidu가 오픈소스로 공개한 Unlimited OCR의 해결 방식은 완전히 다릅니다.
이 모델은 페이지별로 처리하지 않습니다.

단 한 번의 순방향 추론(Forward inference)으로 수십 페이지의 문서를 직접 전사(Transcription)합니다.

핵심 셀링 포인트는 한 문장으로 요약됩니다: One-Shot Long-Horizon Parsing(단일 샷 장기 파싱). 즉, 대규모 라벨링 데이터 없이도 저비용으로 긴 텍스트의 심층 구문 이해(Syntactic understanding)를 구현하여, 대규모 언어 모델(LLM)의 퓨샷(Few-shot) 능력을 활용할 수 있다는 뜻입니다.

이미지 한 장이나 여러 페이지의 PDF를 통째로 넣으면 한 번에 파싱을 끝낼 수 있으며, 더 이상 작은 조각으로 나누어 반복 실행할 필요가 없습니다. 이건 정말 끝내주네요!

이 모델의 영감이 매우 흥미롭다고 합니다. 인간이 책을 필사할 때, 책 전체를 머릿속에 다 기억하지는 않습니다.

오직 세 가지 포인트에만 집중합니다: 원문, 방금 쓴 몇 글자, 그리고 다음에 쓸 글자. 이전의 내용은 자연스럽게 잊혀집니다.
최근의 문맥(Context)은 진행 상황을 추적하는 데 사용됩니다. 이러한 일상적인 행동은 현재의 모델들과는 확연히 다른 주의 집중(Attention) 패턴을 보여줍니다.

Unlimited OCR의 핵심 메커니즘인 R-SWA는 슬라이딩 윈도우 어텐션(Sliding Window Attention)을 참고하여 이 과정을 모사합니다.

각 토큰(Token)은 전체 이미지를 볼 수 있습니다. 하지만 출력단에서는 앞선 128개의 상태만을 유지합니다. 32K 컨텍스트(Context)를 지원하며, 한 번의 추론으로 수십 페이지를 처리합니다. KV Cache 크기는 일정하게 유지되며 문서 길이에 따라 증가하지 않습니다.

이는 사실 OCR을 단순한 글자 인식 도구에서 문서 이해 엔진(Document understanding engine)으로 한 단계 더 진보시킨 것입니다. 이전에는 긴 문서를 처리하려면 반드시 블록 단위로 나누어야 한다고 생각했습니다.

하지만 이제는 점점 명확해지고 있습니다: 문맥(Context)이 충분히 길고 모델이 강력하다면, '원테이크(One-shot)' 방식이 오히려 더 효율적이고 정확하다는 것을 말이죠.

기술 보고서(Technical report)의 작성 방식도 매우 흥미롭습니다. 스토리텔링이 매우 강하고 아이디어가 급진적입니다.
마치 탐험가 같은 기질이 느껴지는데, 이런 스타일은 이전까지 DeepSeek 기술 보고서의 전유물이었습니다.

그리고 상황이 흥미로워지기 시작합니다.

기술 보고서의 핵심 기여자들을 살펴보았습니다.
세 명 중 두 명은 실명을 사용했습니다.
유독 기술 총괄(Technical Director)만 'YY'라는 두 글자 약칭을 사용했습니다. YY는 누구일까요?

단서를 따라 거슬러 올라가 볼까요?

GitHub의 감사(Acknowledgment) 섹션에는 DeepSeek-OCR과 DeepSeek-OCR-2가 상위 두 자리에 올라와 있습니다.
DeepEncoder는 원래 DeepSeek OCR에서 처음 도입되었습니다.

이번 Unlimited OCR은 바로 이 고압축 인코더(High compression ratio encoder)를 완벽하게 융합했습니다.

보고서 내에서 DeepSeek OCR을 언급하는 어조는 경쟁 제품과 비교하는 느낌이 아닙니다. 오히려 자신의 이전 연구를 반성하고 최적화하는 것에 가깝습니다.

국내(중국) OCR 업계가 그리 크지는 않습니다.
R-SWA와 같은 수준의 돌파구를 만들어내고, DeepSeek OCR 아키텍처를 직접 만들어본 수준으로 잘 아는 사람은 손에 꼽을 정도입니다.

또 다른 디테일을 하나 더 살펴봅시다.

2026년 4월 24일, DeepSeek-V4가 정식 출시되었습니다. 58페이지 분량의 기술 보고서 끝부분에는 약 300개의 이름이 알파벳 순으로 나열되어 있습니다.

그중 10개의 이름 옆에는 작은 별표가 표시되어 있었습니다: '퇴사함'.
2025년 하반기부터 2026년 초까지, 채 반년도 되지 않는 기간 동안 DeepSeek에서 5명이 떠났습니다.

그들은 어디로 갔을까요? YY는 누구일까요? 보고서에 직접적으로 명시되어 있지는 않지만, 읽으면 읽을수록 답이 행간에 숨어 있다는 느낌을 받습니다.

또한 Baidu가 최근 취하고 있는 행보가 확실히 다르다는 것을 알 수 있습니다. 여러분도 알다시피, 가장 강력한 OCR은 항상 그들의 것이 아니었으며, 거의 대적할 상대가 없었으니까요!

PaddleOCR부터 이번 Unlimited OCR에 이르기까지, 더 앞선 방향으로 나아가고 있다는 것이 느껴집니다.

이 업데이트 속도, 인재 확보 능력, 그리고 발전 방향을 보면 미래가 기대됩니다.

가십은 제쳐두고 기술만 놓고 본다면, 원테이크 방식의 장문 문서 OCR 방향은 확실히 맞습니다.

프로젝트와 모델 모두 오픈소스로 공개되어 있으니, 관심 있는 분들은 댓글창의 주소를 확인해 보세요 👇🏻.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @berryxia (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0