Mistral OCR 4 공개

요약

Mistral에서 공개한 문서 이해 특화 모델인 OCR 4에 대한 분석과 비평을 담고 있습니다. 범용 모델이 아닌 특정 태스크에 최적화된 전문 모델의 필요성과 OCR 모델의 올바른 활용 범위 및 한계를 다룹니다.

핵심 포인트

Mistral OCR 4는 질문 답변용이 아닌 텍텍스트 변환용 문서 이해 모델임
고위험 금융 의사결정이나 실시간 시스템 등 안전 필수 분야 사용은 지양해야 함
범용 모델보다 특정 태스크에 특화된 전문 모델을 사용하는 것이 효율적임
복잡한 레이아웃 및 다국어 처리 성능에 대한 검증이 필요함

US Postal Service는 늘 기술적 경이처럼 느껴짐
훨씬 원시적인 기술로도 수십억 통의 우편물을 식별하고 라우팅하는 데다, 미국 주소는 말도 안 되게 비표준적이라 같은 주소를 여러 방식으로 써도 같은 곳에 도착하곤 함
이 분야에 공개된 지식도 많겠지만, USPS 규모로 수년간 해낸 일이라면 OCR 발표를 볼 때마다 이미 풀린 문제처럼 보임

아버지는 한때 알제리에서 온 편지를 받았는데, 봉투에는 이름, “Créteil”(당시 살던 인구 약 10만 명 도시), “France” 딱 세 단어만 적혀 있었음
1970년대라 인터넷도 중앙 데이터베이스도 없었지만 우편 서비스가 배달에 성공했음
아버지가 사회복지 활동을 활발히 하고 청소년 축구팀도 운영해서 동네에서 이름만으로도 꽤 알려져 있었기 때문임
요즘은 휴대폰 도움 없이는 사람이나 장소를 못 찾는 경우가 많고, 집배원도 잡담을 멈추지 않음
그런 편지는 기술 처리 과정도, 아마 사람 네트워크도 통과하지 못할 것 같음

예전에 덴마크 우편 서비스에서 시간제로 일했는데, 자동 분류는 우편번호까지만 했음
그걸로 편지가 올바른 우체국까지 가면, 나머지는 이른 아침에 집배원들이 처리했음
어떤 주소가 뭘 뜻하는지 맞히는 일이 꽤 재미있었고, 특히 나이 든 직원들은 특정 장소가 왜 그런 식으로 주소가 적히는지 사연을 알거나 거주자 이름만 보고 주소를 추측하곤 했음

Malayalam으로 테스트했는데, 평범한 필체는 정확했지만 조금 다른 스타일은 Kannada로 감지됐음
필요하면 샘플을 줄 수 있고, Sarvam은 같은 샘플에서 텍스트 오류 하나만 남기고 99% 정확도로 처리했음

Sarvam을 인도계 언어 밖에서 써 본 경험이 궁금함
예를 들면 Indian English, 로마자로 적은 인도계 표현이 섞인 문서, 그리고 그림·표 같은 복잡한 레이아웃이 있는 문서에서 어떤지 궁금함
인도 서비스들에 관심은 있었지만, 생각보다 가격이 조금 높아 보이는 편이라 망설이고 있음
물론 잘못 기억하는 것일 수도 있음

“범위 밖 사용에 대한 참고. OCR 4는 문서 이해 모델이지 의사결정자가 아니다. 의료 진단, 법률 자문이나 판단, 고위험 금융 의사결정, 안전 필수 시스템, 실시간/지연 시간 민감 처리, 비문서 입력(원시 오디오, 비디오 등)을 위한 것이 아니다.”
다음 회의에서 “좋아, 그런데 휴대폰 사진 같은 비문서 입력으로 고위험 금융 의사결정에 쓰면 어떨까?”라고 제안할 “혁신적인” 관리자가 벌써 기대됨
다음 주쯤 HN에서 누군가 이 “아이디어”를 댓글로 달 거라고 장담함

왜 굳이 그렇게 할지 모르겠음
더 성능 좋은 모델이 수십 개 있는데 그에 비해 형편없는 결과만 나올 것임
이건 질문에 답하는 모델이 아니라 텍스트 변환용임
그냥 반AI 각도를 억지로 만들고 싶은 것처럼 보임

모든 AI 회사가 한 작업에 아주 강한 전문화 모델을 만들고 있음
Mistral은 이 점을 좀 더 솔직하게 드러낼 뿐이고, 아마 모든 것의 전문가처럼 보이는 범용 사용자 도구(채팅)로 관객을 놀라게 할 필요가 없거나 원하지 않기 때문일 것임
실제로 그런 도구도 꽤 자주 여러 전문 모델을 연결한 형태임
여기서 원하는 건 Python 스크립트 몇 개면 가능함
Voxtral로 음성 프롬프트를 텍스트로 바꾸고, 추가 시스템 프롬프트와 함께 Mistral Large 3에 넘겨 OCR용 프롬프트와 파일 경로를 만들게 한 뒤, 루프로 파일을 찾고 OCR 3에 던지고, 다시 Mistral Large 3으로 해석해서 의사결정으로 바꾸면 됨
이런 구성은 흔하고, 오히려 모든 걸 모델 하나로 처리하는 쪽이 드묾

“중요 금융 의사결정을 OCR 소프트웨어에 위임했더니, 다음에 벌어진 일을 믿지 못할 겁니다”

최근 Opus 4.8로 OCR을 시도했음
엄밀히 말해 맞는 도구는 아니지만, 필요한 건 영수증에서 날짜를 추출하는 것뿐이었음
날짜의 약 20%를 틀렸는데도 전부 “높은 신뢰도”라고 평가했음
아마 OCR 특화 모델을 써봤어야 했을 듯함

영수증에서 날짜 뽑는 건 30년 전쯤 이미 거의 풀린 문제 아니었나 싶음
예전에 흑백 스캐너에 딸려오던 셰어웨어 OCR 도구도 20% 오류보다는 나았을 것 같음

Opus는 모르겠지만, Gemini의 구독 제품 OCR은 모델이 직접 하는 게 아닌 듯함
별도의 구식 OCR 도구를 쓰는 것 같고, 테스트 결과도 나빴음
반면 Gemini API에서는 모델이 직접 OCR을 해서 훨씬 정확도가 좋았음

Opus는 OCR을 아주 잘함
작은 1~4B 비전-언어 모델보다 훨씬 나음
Opus가 실패했다면 그런 작은 모델들도 대부분 실패할 가능성이 큼

이 얘기는 믿기 어려움
Opus 4.8로 최근 최악의 필체가 섞인 PDF 수백 개를 스캔했는데, 나조차 읽을 수 없던 기록 하나를 제외하면 100% 성공했음

AI 자동 생성 콘텐츠

원문 바로가기