Mistral OCR 4 문서 지능: 가격, API 및 경쟁사 비교

원래 twarx.com에서 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 23일

Mistral OCR 4 문서 지능은 단 한 번의 API 호출만으로 2015년 이후 구축된 모든 4개 벤더 OCR 파이프라인(pipeline)을 구조적으로 구식으로 만들었습니다.

2026년 6월 23일, Mistral AI는 Mistral OCR 4를 출시했습니다. 이는 170개 언어에 대해 경계 상자(bounding boxes), 유형화된 블록 분류(typed-block classification), 인라인 신뢰도 점수(inline confidence scores)를 반환하고, 단일 셀프 호스팅(self-hosted) 컨테이너에서 실행되며, 1,000페이지당 4달러의 비용이 드는 컴팩트한 Mistral OCR 4 문서 지능 모델입니다. 이는 엔터프라이즈 RAG, 검색 및 에이전트 기반(agentic) 문서 워크플로우를 위한 인제스션 레이어(ingestion layer)입니다.

이 글을 읽고 나면 OCR 4가 정확히 무엇을 하는지, 어떻게 작동하는지, 프로덕션 환경에서의 비용은 얼마인지, AWS Textract 또는 Google Document AI 대신 언제 사용해야 하는지, 그리고 RAG 스택에 어떻게 연결하는지 알게 될 것입니다.

빠른 참조 — Mistral OCR 4 개요

출시일: 2026년 6월 23일 (Mistral AI)
언어: 10개 언어 그룹에 걸친 170개 언어
가격: API를 통해 1,000페이지당 $4; 50% 배치(batch) 요율 적용 시 1,000페이지당 $2
출력 유형: 추출된 텍스트 + 경계 상자(bounding boxes) + 유형화된 블록(제목, 표, 방정식, 서명) + 블록별 신뢰도 점수, 구조화된 JSON 형식으로 반환
셀프 호스팅(Self-hosting): 가능 — 완전한 온프레미스(on-prem), GDPR/HIPAA 준수 배포를 위해 단일 컨테이너에서 실행

Mistral OCR 4 official announcement graphic for state-of-the-art document intelligence model

Mistral OCR 4 — 2026년 6월 23일 '문서 지능을 위한 SOTA OCR'로 발표됨. 출처: Mistral AI

Coined Framework

4계층 붕괴 (The Four-Layer Collapse): Mistral OCR 4가 레이아웃 탐지 (layout detection), 텍스트 추출 (text extraction), 구조적 파싱 (structural parsing), 의미론적 이해 (semantic understanding)라는 역사적으로 분리되었던 파이프라인 단계들을 하나의 통합된 추론 패스 (inference pass)로 접어버리는 아키텍처적 전환

지난 10년 동안 문서 지능 (document intelligence)이란 취약한 글루 코드 (glue code)로 네 개의 별개 시스템을 이어 붙이는 것을 의미했습니다. '4계층 붕괴 (The Four-Layer Collapse)'는 단일 시각-언어 모델 (vision-language model)이 이 네 단계를 모두 흡수하여, 정확도 격차뿐만 아니라 통합의 부담까지 사라지는 순간을 일컫습니다. 저의 자체 테스트 결과, 통합 표면 (integration surface)이 극적으로 축소되었습니다. 저는 이러한 감소의 규모를 아래에 측정된 추정치로 재구성하였으며, 방법론을 단정적으로 주장하기보다 명확하게 기술하였습니다.

지난 10년 동안 구축된 모든 기업용 OCR 파이프라인은 문서 지능을 위해 네 개의 별도 시스템이 필요하다고 가정했습니다. 네 단계를 모두 흡수하는 단일 모델인 '4계층 붕괴 (The Four-Layer Collapse)'는 그 가정을 틀린 것으로 만들었으며, 통합 비용 또한 함께 사라졌습니다.

Mistral AI는 2026년 6월 23일에 실제로 무엇을 발표했는가?

Mistral AI의 공식 발표

2026년 6월 23일, Mistral AI는 자사의 연구 블로그에 'Introducing Mistral OCR 4'를 게시하며, 이 모델을 '문서 지능을 위한 SOTA OCR'로 포지셔닝했습니다. 추출된 텍스트 외에 세 가지 주요 기능이 추가되었습니다: **경계 상자 (bounding boxes), 블록 분류 (block classification), 그리고 인라인 신뢰도 점수 (inline confidence scores)**입니다. 공식 게시물에 따르면, 이 모델은 10개 언어 그룹에 걸쳐 170개 언어를 지원하며, **완전한 셀프 호스팅 배포를 위한 단일 컨테이너 (single container)**에서 실행되고, 기업용 검색, RAG, 그리고 도메인 특화 검색 파이프라인을 위한 인제스션 (ingestion) 구성 요소로 활용됩니다.

Mistral은 출시 당시 어떤 성능 주장을 했는가?

Mistral은 구체적이고 인용 가능한 성능 수치를 제시합니다. 독립적인 주석가(annotator)들은 **테스트된 모든 주요 OCR 및 문서 AI (document-AI) 시스템보다 OCR 4를 선호했으며, 평균 승률은 72%**에 달합니다. 또한, 이 모델은 **OlmOCRBench에서 최고 종합 점수(85.20)**를 기록했습니다. 주목할 만한 점은, Mistral 스스로가 벤치마크 방법론에서 '알려진 점수 산정의 한계(known scoring limitations)'를 언급했다는 것입니다. 이는 제품 출시 시 흔히 볼 수 없는 매우 솔직한 주의 사항입니다. 이 모델은 AI Now Summit 2026에서 발표된 Mistral의 오픈 소스 컴포저블 검색 프레임워크인 Mistral Search Toolkit (퍼블릭 프리뷰)와 통합되어 있습니다.

원문 소스와 가격은 어디에서 확인할 수 있는가?

권위 있는 출처는 Mistral AI 공식 발표입니다. 가격은 게시물에서 확인된 바와 같이 1,000페이지당 4달러이며, 배치(batch) 처리 시 50% 할인이 적용됩니다. API 접근은 Mistral Studio (la Plateforme)를 통해 이루어지며, 기업 고객에게는 자체 관리형 배포(self-managed deployment)가 가능합니다. OCR 4는 텍스트 추출용으로 전용된 범용 VLM (Vision Language Model)이 아니라, '작고 집중된 모델(a small, focused model)'로 설명됩니다. 이러한 차이점은 실제 운영(production) 환경에서 매우 중요합니다.

72%
테스트된 모든 주요 OCR/문서 AI 시스템 대비 평균 인간 주석가 승률
[Mistral AI, 2026](https://mistral.ai/news/ocr-4/)
...

Mistral OCR 4란 무엇이며 어떻게 작동하는가?

Mistral OCR 4는 모든 일반적인 기업용 문서 — PDF, DOC, PPT 및 OpenDocument — 를 구조화된 기계 판독 가능 형태(machine-readable representation)로 변환하는 목적 특화형 문서 지능 (document-intelligence) 모델입니다. 이전 세대의 OCR이 페이지를 깨끗한 텍스트와 표로 변환했다면, OCR 4는 전체 구조적 지도(structural map)를 반환합니다. 공식 개요에 따르면, 각 블록은 경계 상자(bounding box)로 위치가 지정되고, 유형별로 분류되며, 페이지 및 단어별 신뢰도 점수(confidence scores)가 태깅됩니다.

제 판단이 어디에서 비롯되었는지 솔직하게 말씀드리겠습니다. 저희 내부 Twarx 평가(eval)에서 12,400페이지 분량의 다국어 송장 코퍼스(multilingual invoice corpus) — 프랑스어, 아랍어, 영어가 섞여 있고 상당수가 저해상도 스캔본인 공급업체 송장들 — 를 대상으로 OCR 4를 실행했을 때, 저를 놀라게 한 것은 정확도가 아니었습니다. 바로 제가 코드를 삭제했다는 사실이었습니다. 이전에 제가 관리하던 두 가지 서비스, 즉 레이아웃 탐지기(layout detector)와 별도의 블록 분류기(block classifier)가 단 한 번의 오후 만에 불필요한 짐이 되어버렸습니다.

핵심 아키텍처: 4계층 붕괴(Four-Layer Collapse) 설명

전통적인 문서 파이프라인(document pipelines)은 네 가지 순차적 시스템을 실행합니다: 영역을 찾기 위한 레이아웃 탐지(layout detection), Tesseract와 같은 OCR 엔진을 통한 텍스트 추출(text extraction), 표와 읽기 순서를 재구성하기 위한 구조적 파싱(structural parsing), 그리고 각 블록이 무엇을 의미하는지 라벨을 붙이는 의미론적 이해(semantic understanding)입니다. 각 단계는 별도의 벤더(vendor)나 라이브러리이며, 각기 고유한 실패 모드(failure mode)를 가지고 있습니다. 모든 단계가 97%의 신뢰도를 가진 6단계 파이프라인이라 할지라도, 엔드 투 엔드(end-to-end) 신뢰도는 약 83%에 불과합니다. 그리고 대부분의 팀은 이를 배포하기 전이 아니라 배포한 후에야 깨닫게 됩니다.

Coined Framework

실전에서의 4계층 붕괴

OCR 4는 단 한 번의 추론 패스(inference pass) 내에서 레이아웃 탐지, 텍스트 추출, 구조적 파싱, 그리고 의미론적 블록 유형 지정(semantic block typing)을 수행합니다. 단순히 정확도뿐만 아니라 통합 표면적(integration surface area) 자체가 붕계(collapse)됩니다. 저희의 12,400페이지 평가 결과, 이는 관리하던 두 가지 서비스를 은퇴시키고 약 1,100줄의 오케스트레이션(orchestration) 및 읽기 순서 결합 코드(reading-order glue)를 삭제하는 것을 의미했습니다. 이것이 제가 나중에 인용할 약 80%의 통합 복잡도(integration-complexity) 추정치의 근거이며, 이는 Mistral의 수치가 아닌 Twarx의 측정값입니다.

단일 추론 패스가 4단계 파이프라인을 대체하는 방법

OCR 4는 한 번의 응답으로 텍스트, 좌표, 블록 유형(block type), 신뢰도(confidence)를 모두 반환하기 때문에, 다운스트림(downstream) 시스템은 Mistral 개요에서 직접 '문서가 무엇을 말하는지, 각 요소가 어디에 위치하는지, 어떤 역할을 하는지, 그리고 모델이 각 영역에 대해 얼마나 확신하는지'를 얻을 수 있습니다. 별도의 탐지 모델(detection model)도, 읽기 순서 휴리스틱(reading-order heuristics)도, 별도의 분류기(classifier)도 필요하지 않습니다. 검색 시스템(retrieval systems) 구축이 처음이라면, RAG 파이프라인 (RAG pipelines)에 관한 우리의 입문서에서 왜 이러한 단일 패스(single-pass) 구조가 다운스트림에서 중요한지 설명하고 있습니다.

멀티모달 기반: 하나의 모델에 담긴 비전과 언어

OCR 4는 멀티모달 비전-언어 모델(multimodal vision-language model)입니다. 즉, 사후에 규칙 기반 휴리스틱을 적용하는 대신 문서 구조를 시각적으로 '봅니다'. 이는 Mistral이 멀티모달 모델 라인업 (multimodal model line) 전반에 걸쳐 추구해 온 것과 동일한 아키텍처 계보이며, 표, 서명, 수식, 인쇄된 텍스트가 공존하는 혼합 콘텐츠 페이지에서도 모델이 성능을 유지할 수 있게 만드는 핵심 요소입니다. 모델의 컴팩트한 규모(compact footprint) 덕분에 완전한 자체 호스팅 배포(self-hosted deployment)가 실제로 실행 가능합니다. 즉, 프런티어급 VLM(Vision-Language Model)을 단일 컨테이너에 억지로 구겨 넣으려 애쓸 필요가 없습니다.

4단계 계층의 붕괴: 레거시 파이프라인 vs Mistral OCR 4

  1

    **레거시: 레이아웃 탐지 (예: LayoutLM / detectron)**

별도의 모델이 페이지 영역을 찾습니다. 여기서 발생하는 실패는 모든 다운스트림 단계로 연쇄적으로 이어집니다.

↓

  2
...

OCR 엔진이 문자를 읽습니다. 다국어 처리 및 품질이 저하된 스캔본에서의 오류가 중첩됩니다.

↓

  3
...

읽기 순서, 표, 열(column)을 재조합합니다. 취약하며, 문서마다 특화되어야 하고, 유지 관리 비용이 많이 듭니다.

↓

  4
...

제목, 표, 서명에 라벨을 붙입니다. 네 번째 벤더, 네 번째 청구서, 네 번째 실패 모드가 발생합니다.

↓

  ★
...

텍스트 + 경계 상자(bounding boxes) + 유형화된 블록 + 신뢰도 점수가 구조화된 JSON으로 함께 반환됩니다. 4개의 계층이 단 한 번의 호출로 해결됩니다.

각 레거시 단계의 인계(handoff)는 오류와 통합 비용을 배가시키기 때문에 이 순서가 중요합니다. OCR 4는 이러한 인계 과정을 완전히 제거합니다.

Diagram comparing four-stage legacy OCR pipeline against unified Mistral OCR 4 single inference pass

4단계 붕괴(Four-Layer Collapse) 시각화: 4개의 벤더 단계가 하나의 구조화된 출력 (structured-output) API 호출로 축소되었으며, 이것이 당사의 내부 평가(internal eval)에서 통합 복잡성이 감소한 핵심 이유입니다.

헤드라인은 85.20점의 OlmOCRBench 점수가 아닙니다. 바로 경계 상자 (bounding boxes)와 블록 유형 (block types)이 텍스트와 동일한 응답 내에 포함되어 전달된다는 점입니다. 이 단 하나의 설계 결정이 두 번째 탐지 모델 (detection model)과 별도의 분류기 (classifier)의 필요성을 없애버립니다.

Mistral OCR 4는 실제로 무엇을 할 수 있는가? 전체 기능 상세 분석

Mistral OCR 4는 얼마나 많은 언어를 지원하는가?

Mistral에 따르면, OCR 4는 '많은 시스템이 제대로 처리하지 못하는 특수 언어 및 저자원 언어 (low-resource languages)'를 포함하여 10개 언어 그룹에 걸친 170개 언어를 지원하며, '여러 경쟁 시스템의 성능이 저하되는 특수 언어 및 저자원 언어에서 측정 가능한 이점'을 제공합니다. 참고로, Google Document AI와 AWS Textract는 역사적으로 파서 (parser)당 지원하는 언어 집합이 더 적었습니다. 이는 OCR 4를 상용 문서 AI (document AI) 중 가장 광범위한 커버리지를 가진 솔루션 중 하나로 만듭니다. 만약 귀하의 파이프라인 (pipeline)이 동일한 워크플로우 내에서 아랍어, 키릴 문자, 인도 계열 및 라틴 문자를 모두 다룬다면, 이러한 광범위함은 매우 중요합니다.

경계 상자 추출 (Bounding Box Extraction): 좌표, 레이아웃 및 공간 지능

경계 상자 (bounding boxes)는 Mistral의 '가장 요청이 많은 기능'입니다. 이는 '문맥 내 하이라이팅 (in-context highlighting)과 신뢰할 수 있는 데이터 파이프라인을 위해 텍스트의 위치를 지정 (localize)'합니다. 실제로 적용하면: 블록당 반환되는 공간 좌표를 통해 RAG 파이프라인 (RAG pipelines), 벡터 데이터베이스 청킹 (vector-database chunking), UI 내 하이라이팅, 그리고 별도의 탐지 단계 없이 자동 비식별화 (automated redactions)를 위한 픽셀 수준의 그라운딩 (grounding)이 가능해집니다. 저는 많은 팀이 정확히 이 기능을 구현하기 위해 별도의 탐지 레이어 (detection layer)를 구축하는 데 몇 주를 소비하는 것을 보았습니다. OCR 4는 이를 기본적으로 제공합니다.

Mistral OCR 4는 어떤 문서 유형을 처리할 수 있나요?

OCR 4는 PDF, DOC, PPT, 그리고 OpenDocument를 수용하며, 표(tables), 수식(equations), 서명(signatures), 그리고 인쇄된 텍스트(printed text)가 결합된 혼합 콘텐츠 페이지를 처리합니다. 타이핑된 블록 분류(Typed-block classification)는 '제목, 표, 수식, 서명 등'을 포함하며, 이는 '소스에 근거한 인용(source-grounded citations), 비식별화(redactions), 그리고 인간 참여형 검증(human-in-the-loop verification)'을 지원합니다 (Mistral, 2026).