대부분의 OCR 모델은 여전히 2023년 방식에 머물러 있습니다

대부분의 OCR (Optical Character Recognition) 모델은 여전히 2023년처럼 문서를 읽습니다.

한 번에 한 페이지씩 읽습니다. 방금 본 모든 것을 잊어버립니다. 문서가 길어질수록 속도가 느려집니다.

Baidu가 방금 이를 바꾸었습니다.

그들은 Unlimited OCR을 도입했습니다 — 단 한 번의 패스(single pass)로 책 한 권 전체를 전사(transcribe)할 수 있는 모델입니다.

영리한 점은 더 큰 컨텍스트 윈도우 (context window)를 사용하는 것이 아닙니다.

어떻게 어텐션 (attention)이 작동하느냐에 있습니다.

문서 전체를 기억하는 대신, 모든 새로운 토큰 (token)은 다음 사항만을 참조합니다:
• 현재 페이지
• 이전에 생성된 128개의 단어

이는 메모리 사용량을 일정하게 유지하면서 연속성을 보존하기에 충분합니다.

결과:

→ 문서의 길이에 상관없이 고정된 메모리 사용량 (memory footprint)
→ 40페이지 이상의 PDF에서도 일관된 속도
→ 긴 문서에서의 낮은 오류율
→ 파싱 (parsing) 벤치마크에서 93% 달성
→ Hugging Face에 오픈 웨이트 (open weights) 공개

이것은 누군가 실제로 구현하고 나서야 비로소 당연해 보이는 아이디어 중 하나처럼 느껴집니다.

때때로 가장 큰 돌파구는 더 많은 메모리를 추가하는 것이 아닙니다.

더 적은 메모리를 필요로 하게 만드는 것입니다.

Insights

대부분의 OCR 모델은 여전히 2023년 방식에 머물러 있습니다

요약

핵심 포인트

댓글

PlayStation, 2028년부터 신작 게임의 물리 디스크 생산 중단 예정

6월 민간 고용 98,000명 증가, 예상치 하회

스타트업 Oxmiq, AI 비용 절감을 위한 칩 아키텍처 구축을 위해 3,500만 달러 투자 유치

PlayStation, 2028년부터 신작 게임의 물리 디스크 생산 중단 예정

6월 민간 고용 98,000명 증가, 예상치 하회

스타트업 Oxmiq, AI 비용 절감을 위한 칩 아키텍처 구축을 위해 3,500만 달러 투자 유치