
방금 Mistral이 OCR 4를 출시했습니다! (비오픈소스 모델)
요약
Mistral AI가 구조화된 출력을 지원하는 Mistral OCR 4를 출시했습니다. 이 모델은 단순 텍스트 인식을 넘어 텍스트 위치(Bounding Box), 블록 분류, 신뢰도 점수를 제공하며 170개 언어를 지원합니다.
핵심 포인트
- 단순 텍스트 인식을 넘어 문서 구조를 파악하는 엔진으로 진화
- 경계 상자(Bounding Box) 및 텍스트 블록 자동 분류 기능 제공
- 개발자의 레이아웃 분석 작업 부담을 줄여주는 구조화된 데이터 출력
- 170개 언어 지원 및 페이지당 비용 모델 제공
2026년 6월 23일, Mistral AI가 Mistral OCR 4를 출시했습니다.
대규모 언어 모델 (LLM)로 유명한 이 프랑스 기업이 갑자기 OCR 분야에 뛰어들었습니다.
Mistral OCR 4의 핵심 능력은 단순한 문자 인식(Text Recognition)이 아닙니다.
이 모델은 각 인식 결과에 대해 경계 상자 (Bounding Box)를 생성하여, 페이지 상의 문자 위치를 정확하게 표시합니다.
또한 제목, 본문, 표, 머리글 및 바닥글 등 각 텍스트 블록을 자동으로 분류합니다.
각 인식 결과에는 신뢰도 점수 (Confidence Score)가 포함되어 있어, 해당 문자를 얼마나 확신하는지 알려줍니다.
170개의 언어를 지원합니다.
이 사건의 배경은 지난 3개월 동안 OCR 분야에서 집중적인 기술 혁신이 일어났다는 점입니다.
Baidu는 최근 R-SWA 메커니즘을 사용하여 한 번의 추론으로 수십 페이지의 문서를 처리하는 Unlimited OCR을 오픈소스로 공개했습니다.
이제 Mistral은 완전히 다른 접근 방식으로 시장에 진입했습니다. 긴 문서 이해 (Long-document Understanding)를 목표로 하는 것이 아니라, 구조화된 출력 (Structured Output)을 목표로 합니다.
두 가지 노선은 동일한 방향을 가리키고 있습니다: OCR이 '글자를 읽는 도구'에서 '문서 이해 엔진 (Document Understanding Engine)'으로 진화하고 있다는 것입니다.
이전의 OCR은 순수 텍스트를 출력했습니다.
현재는 위치, 유형, 신뢰도가 포함된 구조화된 데이터를 출력합니다.
개발자들에게 이는 다운스트림 태스크 (Downstream Task)에서 더 이상 레이아웃 분석 (Layout Analysis)을 직접 수행할 필요가 없음을 의미합니다. OCR이 직접 정답을 제공하기 때문입니다.
가격: 참고용으로 1,000페이지당 $4이며, 공식 웹사이트에서 확인 가능합니다.
OCR 평가 업계가 다시 활기를 띨 것 같습니다.
Mistral의 이 OCR 모델이 중국어 성능에서 Paddle OCR을 능가할 수 있을지는 믿기 어렵지만, 다음에 이것을 가지고 성능 테스트를 한번 해볼까요?
AI 자동 생성 콘텐츠
본 콘텐츠는 X @berryxia (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기