대부분의 OCR 모델은 여전히 2023년 방식에 머물러 있습니다
요약
Baidu가 단 한 번의 패스로 책 한 권 전체를 전사할 수 있는 'Unlimited OCR' 모델을 공개했습니다. 컨텍스트 윈도우를 늘리는 대신 어텐션 메커니즘을 최적화하여 메모리 사용량을 일정하게 유지하면서도 긴 문서 처리를 가능하게 했습니다.
핵심 포인트
- 문서 길이에 상관없이 고정된 메모리 사용량 유지
- 40페이지 이상의 긴 PDF에서도 일관된 처리 속도 제공
- 어텐션 메커니즘 최적화로 긴 문서에서의 낮은 오류율 달성
- 파싱 벤치마크에서 93%의 높은 성능 기록
- Hugging Face를 통해 오픈 웨이트 모델로 공개
대부분의 OCR (Optical Character Recognition) 모델은 여전히 2023년처럼 문서를 읽습니다.
한 번에 한 페이지씩 읽습니다. 방금 본 모든 것을 잊어버립니다. 문서가 길어질수록 속도가 느려집니다.
Baidu가 방금 이를 바꾸었습니다.
그들은 Unlimited OCR을 도입했습니다 — 단 한 번의 패스(single pass)로 책 한 권 전체를 전사(transcribe)할 수 있는 모델입니다.
영리한 점은 더 큰 컨텍스트 윈도우 (context window)를 사용하는 것이 아닙니다.
어떻게 어텐션 (attention)이 작동하느냐에 있습니다.
문서 전체를 기억하는 대신, 모든 새로운 토큰 (token)은 다음 사항만을 참조합니다:
• 현재 페이지
• 이전에 생성된 128개의 단어
이는 메모리 사용량을 일정하게 유지하면서 연속성을 보존하기에 충분합니다.
결과:
→ 문서의 길이에 상관없이 고정된 메모리 사용량 (memory footprint)
→ 40페이지 이상의 PDF에서도 일관된 속도
→ 긴 문서에서의 낮은 오류율
→ 파싱 (parsing) 벤치마크에서 93% 달성
→ Hugging Face에 오픈 웨이트 (open weights) 공개
이것은 누군가 실제로 구현하고 나서야 비로소 당연해 보이는 아이디어 중 하나처럼 느껴집니다.
때때로 가장 큰 돌파구는 더 많은 메모리를 추가하는 것이 아닙니다.
더 적은 메모리를 필요로 하게 만드는 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @nainsidwiv50980 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기