【실측】 무료·오프라인으로 일본어를 이만큼 읽을 수 있다 ―― Baidu의 새로운 OCR 「PP-OCRv6」가 은근히 대단하다

무료.

로컬.

오프라인.

게다가, 일본어를 상당히 잘 읽습니다.

Baidu가 출시한 새로운 OCR, PP-OCRv6를 테스트해 보았습니다.

솔직히, 생각했던 것보다 훨씬 실용적이었습니다.

공식 측은 tiny 모델에 대해 「1.5MB」「단일 이미지 97ms」「브라우저에서 동작」이라고 내세우고 있습니다.

이 숫자만 보면 상당히 공격적인 수치입니다.

그렇다면, 일본어에서도 정말로 사용할 수 있을까요?

가지고 있는 Apple M5로 측정했습니다.

결론부터 말하자면, 일본어의 실용적인 해답은 Small입니다.

72ms.

약 31MB.

깔끔한 일본어 5문장에서는 정확도 100%.

이것이 상당히 기분 좋은 결과였습니다.

실측 환경은 Apple M5 / macOS 26.5 / Python 3.12 / paddleocr 3.7.0 / paddle 3.3.1 / CPU 입니다.

일본어 5문장을 warm 10회 평균으로 측정했습니다.

모델	일본어 대응	일본어 정확도	속도	사이즈
Tiny	사양상 미지원	약 50%	27ms	det 2MB + rec 5MB ≒ 7MB
...

tiny는 빠릅니다.

하지만, 일본어는 사양상 지원 외입니다.

small은 상당히 좋습니다.

빠르고, 가볍고, 일본어를 읽을 수 있습니다.

medium은 무겁습니다.

하지만, 가장 끈기 있게 버팁니다.

먼저, 실행 방법입니다.

본문에서는 커맨드만 작성하겠습니다.

실행은 하지 않았습니다.

uv venv /tmp/ocrtest --python 3.12
uv pip install --python /tmp/ocrtest paddlepaddle paddleocr # paddleocr 3.7.0

from paddleocr import PaddleOCR
# 일본어는 Small이 실용적인 해답
ocr = PaddleOCR(
...

small을 tiny / medium으로 바꾸면 각 모델이 됩니다.

모델은 최초 실행 시 자동으로 다운로드됩니다.

이번에 가장 인상이 바뀐 것은 Small이었습니다.

OCR은 대개 이런 인상을 주기 쉽습니다.

가벼운 모델은 빠르지만 읽지 못한다.

읽을 수 있는 모델은 무겁고 느리다.

PP-OCRv6의 Small은 그 중간을 잘 잡아냈습니다.

72ms로 일본어 100%, 사이즈는 약 31MB.

이 정도 수치라면, 로컬 상주 부품으로서 상당히 다루기 쉽습니다.

물론, 이것은 1행 이미지의 값입니다.

단어 수가 많은 이미지나, 큰 이미지에서는 늘어납니다.

약 54단어의 워드 클라우드(Word Cloud)에서는 Medium으로 약 1초였습니다.

그럼에도 클라우드에 던지지 않고 로컬에서 읽을 수 있는 OCR로서는 충분히 빠릅니다.

먼저, 깔끔한 일본어 문장입니다.

Small도 Medium도 100%였습니다.

여기까지는 어느 정도 예상할 수 있습니다.

깨끗한 인쇄 문자는 OCR에게 쉬운 문제이기 때문입니다.

다음은 영숫자·URL·코드입니다.

이 부분은 tiny에서도 완벽했습니다.

입력: https://github.com/PaddlePaddle/PaddleOCR
출력: https://github.com/PaddlePaddle/PaddleOCR ← 완벽
입력: pip install paddleocr==3.7.0
...

이런 용도라면 tiny는 상당히 강력합니다.

일본어를 읽게 하지 않는다면 27ms라는 속도가 효과적입니다.

놀라운 것은 지금부터입니다.

PaddleOCR 공식 데모의 실제 이미지 japan_2

하지만 테스트해 보았습니다.

크기, 굵기, 농담이 제각각인 약 54단어의 워드 클라우드입니다.

Small도 Medium도 거의 다 읽어냈습니다.

이것은 상상보다 강력했습니다.

일본어 OCR은 정돈된 문장보다 이런 이미지에서 갑자기 무너집니다.

단어의 크기가 다르다.

색이 흐리다.

배치가 흩어져 있다.

문자 주변에 여백이 없다.

그럼에도 읽을 수 있습니다.

여기서 '이것은 쓸만하구나'라고 생각했습니다.

실제 카메라 사진으로도 확인했습니다.

일본어 포스터의 「だいじょうぶ。未来は元気だよ。(괜찮아. 미래는 활기찰 거야.)」는 정확했습니다.

실외의 세로쓰기 간판도 한자가 딱 한 글자 틀린 정도였습니다.

스크린샷 전용이 아닙니다.

종이.

포스터.

간판.

그런 현실의 이미지에서도 상당히 잘 버팁니다.

Agent에게 이미지를 전달하기 전의 전처리로서 생각한다면, 이 점은 매우 큽니다.

스크린샷이나 PDF에서 문자를 추출한다.

간판 사진에서 문자를 추출한다.

그것을 로컬 (Local)에서 수행한다.

수수한 작업이지만, 효과적입니다.

손글씨도 테스트해 보았습니다.

직접 글자를 나열한 것은 '진짜 손글씨'라고 할 수 없기에, 실제로 손으로 쓴 사진을 사용했습니다.

Wikimedia Commons에 있는 손글씨 러브레터입니다 (연필(연필체), 종이, 조명 불균형, 뒷면 비침이 있는 실사).

테스트 이미지: Love letter in Japanese by Umi from Oakland, U.S. — CC BY-SA 2.0 (리사이즈하여 게재)

이를 OCR (광학 문자 인식)에 돌렸습니다.

사람이 읽을 수 있는 정답은 다음과 같습니다.

愛とは決してあきらめないこと… (사랑이란 결코 포기하지 않는 것…)
大好きです。 / ラブユー (정말 좋아합니다. / 러브 유)
海ちゃんへ（디자인된 장식 문자） (우미 짱에게)

Small과 Medium의 출력:

Small : 「愛とは決して」◎ / 「あきらめないこと…」◎ / 「大好きです。」◎ / 「ラブュー」(가까움) / 「海ちゃんへ」→ 海地ん
Medium: 「愛とは決して」◎ / 「あきらめないこと…」◎ / 「大好きです。」◎ / 「ラブュ」(ユー 누락) / 「海ちゃんへ」→ 海ん
Tiny : 거의 전멸（「大好飞有小」 등）

솔직히, 이 부분은 놀랐습니다.

연필(연필체)로 쓴 진짜 손글씨에서도, 본문의 「愛とは決してあきらめないこと…」「大好きです。」를 그대로 읽어냈습니다.

틀린 것은 디자인된 장식 문자인 「海ちゃんへ」와 잘려 나간 글자 정도입니다.

여기서도 Small과 Medium은 거의 막상막하였습니다 (장식 문자는 Small이 약간 선전).

Tiny는 일본어를 지원하지 않으므로, 손글씨도 전멸입니다.

손글씨를 본격적으로 다루려면 손글씨 특화 OCR도 병용해야 하겠지만,

메모나 편지의 본문을 대략적으로 읽는 정도라면 Small로도 충분히 싸울 수 있습니다.

Tiny는 영숫자, 코드, URL용입니다.

49개 언어를 지원하며, 일본어는 사양상 포함되지 않습니다.

사이즈는 로컬에서 det 2MB + rec 5MB, 합계 약 7MB였습니다.

브라우저나 경량 전처리 용도로는 매력이 있습니다.

단, 일본어 OCR로서 선택할 모델은 아닙니다.

Small은 일본어의 일상적인 해결사입니다.

72ms.

약 31MB.

깔끔한 일본어에서는 100%.

인쇄물, 사진, 워드 클라우드(Word Cloud)에 강합니다.

우선은 Small로 시작해도 좋다고 생각합니다.

Medium은 보험입니다.

225ms부터.

약 134MB.

Medium은 34.5M 파라미터(Parameter)입니다.

손글씨나 가장 난해한 이미지까지 잡아내고 싶다면 Medium입니다.

가벼움보다 견고함을 택하는 선택입니다.

먼저, 공식의 「97ms」「1.5MB」는 Tiny의 수치입니다.

그리고 Tiny는 일본어를 지원하지 않습니다.

일본어에서 사용하려면 Small이나 Medium을 보는 것이 좋습니다.

이번 로컬 실측에서는 Small이 72ms / 약 31MB, Medium이 225ms / 약 134MB였습니다.

Cold Start (콜드 스타트)도 있습니다.

첫 실행 시에는 모델 다운로드를 포함하여 8~12초가 소요됩니다.

이후에는 1초 미만입니다.

표의 레이아웃도 그대로 복원되는 것은 아닙니다.

문자는 읽을 수 있어도 열(Column)이나 행(Row)의 구조는 무너집니다.

양식(Form)으로 다루려면 별도의 레이아웃 분석이 필요합니다.

손글씨는 Medium을 선택하는 것이 안전합니다.

Small은 이번 「こんにちは(안녕하세요)」「さくら(사쿠라)」에서는 무너졌습니다.

Agent의 눈으로서 효과적입니다.

스크린샷, PDF, 간판 이미지를 먼저 로컬에서 문자로 변환합니다.

그다음에 LLM (대규모 언어 모델)에 전달합니다.

대량 이미지의 로컬 배치(Batch) 처리에도 적합합니다.

클라우드에 던지지 않고, 야간에 한꺼번에 처리할 수 있습니다.

클라우드에 올리고 싶지 않은 서류에도 적합합니다.

개인정보나 사내 자료를 로컬에서 OCR 할 수 있습니다.

영숫자의 고속 추출에도 적합합니다.

로그 이미지, 코드 단편, URL이라면 Tiny가 빠릅니다.

일본어 일상 용도라면 Small.

손글씨나 어려운 이미지라면 Medium.

영숫자뿐이라면 Tiny.

이렇게 나누는 것이 가장 직관적입니다.

PP-OCRv6의 강점은 단독으로 세계 제일이라는 이야기가 아닙니다.

로컬, 무료, 오프라인, 오픈 소스, 그리고 일본어도 실용 수준.

이 조합이 강력합니다.

클라우드에 올리지 않는다.

돈도 들지 않는다.

그러면서 일본어를 업무에서 사용할 수 있을 정도로 읽을 수 있다.

화려한 이야기는 아닙니다.

하지만 상당히 현장 지향적입니다.

테스트 전에는 공식 Tiny의 수치가 너무 눈에 띄어서, 일본어로는 힘들지 않을까 생각했습니다.

실제로는 달랐습니다.

tiny는 일본어용이 아닙니다.

하지만, small이 좋습니다.

medium도 확실한 보험이 됩니다.

은근히 대단하다.

이 표현이 가장 적절하다고 생각합니다.

원문 기사·관련 기사는 AI Watch 본 사이트에서 읽으실 수 있습니다.

👉 https://aiwatch-jp.pages.dev/ocr-ppocrv6-m5-benchmark

―― AI 미래 편집실 「AI Watch」

【실측】 무료·오프라인으로 일본어를 이만큼 읽을 수 있다 ―― Baidu의 새로운 OCR 「PP-OCRv6」가 은근히 대단하다

요약

핵심 포인트

댓글