Mistral OCR 4: 기업용 OCR의 가격 구조를 재편하는 문서 지능 AI 기술

원래 twarx.com에서 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 23일

대부분의 AI 문서 워크플로우는 완전히 잘못된 문제를 해결하고 있습니다. 대부분의 팀이 배포하는 **AI 기술 (AI technology)**은 페이지에서 깨끗한 텍스트를 추출하는 데만 집착합니다. 진짜 실패는 그 이후 단계, 즉 추출된 텍스트를 구조화하여 보낼 곳이 없을 때 발생합니다. 아무도 그 부분에 대해서는 말해주지 않습니다.

오늘 Mistral AI는 경계 상자 (bounding boxes), 유형별 블록 분류 (typed-block classification), 인라인 신뢰도 점수 (inline confidence scores)를 갖춘 컴팩트하고 셀프 호스팅 가능한 OCR 모델이자 문서 지능 AI 기술인 Mistral OCR 4를 출시했습니다. 이 모델은 OlmOCRBench에서 85.20점을 기록했으며 (Mistral AI 공식 출시), 테스트된 모든 선도적인 OCR 시스템을 상대로 평균 72%의 승률을 달성했습니다 (OlmOCRBench, Allen AI). 가격은 1,000페이지당 4달러입니다.

이 글을 다 읽을 때쯤이면 여러분은 OCR 4가 정확히 무엇을 하는지, 어떻게 RAG 또는 에이전트 파이프라인 (agent pipeline)에 연결하는지, 대량 사용 시 AWS 및 Google과 비교하여 비용이 얼마인지, 그리고 왜 이것이 기업용 문서 지능의 경제 구조를 재편하는지 알게 될 것입니다.

핵심 사실 (Key Facts)

Mistral OCR 4 — 추출 가능한 사실들

모델 (Model): Mistral AI에서 개발한 작고 집중된 문서 지능 모델인 Mistral OCR 4.
벤치마크 (Benchmark): OlmOCRBench (Allen AI 벤치마크)에서 종합 최고 점수 85.20 기록.
승률 (Win rate): 테스트된 모든 선도적인 OCR/문서 AI 시스템을 상대로 평균 72%의 어노테이터 선호 승률 달성.
언어 (Languages): 10개 언어 그룹에 걸친 170개 언어 지원.
가격 (Price): API 이용 시 1,000페이지당 4달러; 50% 배치 할인 (Batch discount) 적용 시 2달러.
셀프 호스팅 가능 (Self-hostable): 가능 — 기업의 데이터 레지던시 (data residency)를 위해 단일 컨테이너에서 실행 가능.

Mistral OCR 4 official announcement graphic showing SOTA document intelligence with bounding boxes and block classification

Mistral OCR 4는 단순히 깨끗한 텍스트뿐만 아니라 구조화된 문서 표현(structured document representations) — 경계 상자(bounding boxes), 블록 유형(block types), 신뢰도 점수(confidence scores) — 를 반환합니다. 출처: Mistral AI

Coined Framework (조어된 프레임워크)

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차(AI Coordination Gap)는 개별적으로는 정확한 AI 구성 요소들이 다음 구성 요소가 안정적으로 소비할 수 없는 출력을 생성할 때 발생하는 시스템적 실패를 의미합니다. 이는 대부분의 프로덕션 AI가 모델 계층(model layer)이 아니라, OCR이 검색(retrieval) 및 추론(reasoning)과 만나는 바로 그 지점인 모델 간의 인계(handoffs) 과정에서 무너진다는 진실을 일컫는 용어입니다.

Mistral OCR 4는 다른 OCR 모델과 무엇이 다른가?

아무도 슬라이드에 넣지 않는 수학적 사실을 고려해 봅시다: 각 단계의 신뢰도가 97%인 6단계 문서 파이프라인(document pipeline)의 전체 엔드 투 엔드(end-to-end) 신뢰도는 약 83%에 불과합니다. 작년에 저는 중견 핀테크 기업이 단순 텍스트 기반 OCR API로 구축된 외상매입금(accounts-payable) 에이전트를 출시하는 것을 지켜보았습니다. 데모에서는 완벽해 보였습니다. 하지만 프로덕션에 투입된 지 3주 만에, 해당 에이전트는 품목 테이블(line-item table)이 행 중간에서 분할된 공급업체 송장 묶음을 조용히 승인해 버렸습니다. 재구성된 PDF에서 에이전트는 $4,200를 $200로 읽었고, 정산 팀은 결제가 완료된 후에야 이를 발견했습니다. 모델이 틀린 것이 아니었습니다. 인계(handoff) 과정이 틀린 것이었습니다.

이것이 바로 한 가지 사건에서 나타난 AI 조정 격차 (AI Coordination Gap)입니다. 전통적인 OCR은 페이지를 텍스트의 벽으로 변환합니다. 기술적으로는 정확할지 모르나, 이후의 모든 하위 프로세스(downstream)에서는 무용지물입니다. 숫자가 페이지의 어디에 위치하는지, 특정 블록이 _어떤 역할_을 하는지(이것이 제목인지, 표의 셀인지, 서명인지, 방정식인지?), 그리고 모델이 각 영역에 대해 _얼마나 확신하는지_를 잃어버립니다. 이를 제거하면 여러분의 RAG 시스템 (RAG system)은 재무 표를 의미 없는 파편으로 분할(chunking)하게 됩니다. 여러분의 AI 에이전트 (AI agent)는 인용문을 페이지의 좌표로 연결(grounding)할 수 없습니다. 전체 체인이 조용하고 값비싼 방식으로 저하됩니다.

2026년 6월 23일에 발표된 Mistral OCR 4 (공식 Mistral AI 출시 소식)는 바로 그 격차를 메우기 위해 명시적으로 구축된 최초의 광범위하게 사용 가능한 OCR 모델입니다. 공식 발표에 따르면, 이전 세대들이 '페이지를 깨끗한 텍스트와 표로 변환하는 데 집중했다면, OCR 4는 문서의 구조화된 표현(structured representation)을 반환한다'고 합니다. 각 블록은 경계 상자(bounding box)로 위치가 지정되고, 유형별로 분류되며, 페이지별 및 단어별 신뢰도 점수(confidence scores)가 할당됩니다.

이 단 하나의 설계 결정은 벤치마크 수치보다 더 중요합니다. 출력물은 조정 준비가 된(coordination-ready) 상태입니다. RAG를 위한 의미론적 청킹(semantic chunking)은 깔끔하고 분류된 상태가 되며, 에이전트는 문서를 읽는 수준을 넘어 양식 채우기, 송장 처리, 컴플라이언스 체크와 같이 문서에 기반해 행동하는 단계로 넘어갑니다. 또한 커넥터(connectors)는 수집(ingestion) 및 인덱싱(indexing)을 위해 일관되고 타입이 지정된(typed) 출력을 받게 됩니다.

85.20
OlmOCRBench에서 최고 종합 점수 획득
[OlmOCRBench / Mistral AI, 2026](https://github.com/allenai/olmocr)
...

이 모델은 완전한 셀프 호스팅 배포를 위해 **단일 컨테이너(single container)**에서 실행됩니다. 벤치마크 헤드라인에 묻혀버릴 것으로 의심되는 이 세부 사항은, 호스팅의 번거로움을 피하기 위해 SaaS 요금을 지불해 온 모든 규제 산업의 비용 및 컴플라이언스 계산 방식을 조용히 재편하고 있습니다.

귀하의 OCR 모델은 단순한 추출 도구가 아닙니다. 그것은 일련의 인계(handoff) 과정 중 첫 번째 단계이며, 이 체인은 가장 취약한 조정 지점의 정확도만큼만 정확합니다.

발표 내용 — 정확한 사실 관계

누가: 파리에 본사를 둔 프런티어 모델 연구소인 Mistral AI.

무엇을: 공식 포스트에서 '문서 지능(Document Intelligence)을 위한 SOTA(최고 수준) OCR'로 설명된 Mistral OCR 4. 추출된 텍스트와 함께 경계 상자(bounding boxes), 블록 분류(block classification), 인라인 신뢰도 점수(inline confidence scores) 기능을 특징으로 합니다.

언제: 2026년 6월 23일, Mistral AI가 자사 블로그의 Research 카테고리에 작성 (mistral.ai/news/ocr-4).

어디서: 회사 블로그를 통해 발표되었으며, Mistral Search Toolkit이 함께 발표된 AI Now Summit 2026과 연계되었습니다.

헤드라인에서 확인된 사실들은 모두 공식 출처에 근거합니다:

성능: 독립적인 주석가(annotators)들은 테스트된 모든 주요 OCR 및 문서 AI(document-AI) 시스템보다 OCR 4를 선호하며, 평균 승률은 **72%**에 달하고 OlmOCRBench에서 최고 종합 점수(85.20)를 기록했습니다.
구조: 페이지별 및 단어별로 경계 상자(bounding boxes), 유형화된 블록 분류(titles, tables, equations, signatures 등), 인라인 신뢰도 점수(inline confidence scores)를 반환합니다.
통합: Mistral의 오픈 소스 컴포저블 검색 프레임워크(composable search framework)인 Mistral Search Toolkit (퍼블릭 프리뷰)의 인제스션(ingestion) 구성 요소입니다.
언어: 10개 언어 그룹에 걸친 170개 언어를 지원하며, 특수 언어 및 저자원 언어(low-resource languages)에서 측정 가능한 성능 향상을 보였습니다.
배포: 단일 컨테이너에서 실행될 수 있을 만큼 컴팩트하며, 기업 고객을 위해 완전한 셀프 호스팅(self-hosted) 배포가 가능합니다.
형식: PDF, DOC, PPT 및 OpenDocument를 지원합니다.
가격: API를 통해 1,000페이지당 4달러이며, 배치(Batch) 처리 시 50% 할인이 적용됩니다.
접근 경로: 개발자는 API를 통해 통합할 수 있으며, 팀은 Mistral Studio에서 Document AI를 사용하여 동일한 엔진에 대한 노코드(no-code) 애플리케이션 수준의 경로를 사용할 수 있습니다.

이번 발표에서 가장 간과된 문장은 바로 OCR 4가 '작고 집중된 모델 (small, focused model)'이라는 점입니다. 수조 개의 파라미터를 가진 범용 모델(generalists)을 쫓는 업계 흐름 속에서, Mistral은 가장 중요한 단 하나의 작업에서 그들을 압도하며 단일 컨테이너(single container)에서 실행되는 컴팩트한 전문가 모델(compact specialist)을 출시했습니다. 이는 AI 조정 격차 (AI Coordination Gap)에 맞선 의도적인 베팅입니다.

Mistral OCR 4가 문서 지능 AI 기술로서 작동하는 방식

그 핵심에서 OCR (광학 문자 인식, Optical Character Recognition)은 스캔된 PDF, 문서 사진, 슬라이드 덱과 같은 텍스트 이미지를 기계가 읽을 수 있는 텍스트로 변환하는 AI 기술입니다. Mistral OCR 4가 바로 이 역할을 수행합니다. 하지만 이 모델은 실질적으로 그 이상의 일을 수행하며, 그 '이상의 기능'이 바로 핵심입니다.

전통적인 OCR 시스템을 녹음기에 계약서를 소리 내어 읽어주는 사람이라고 생각해보십시오. 모든 단어는 얻을 수 있습니다. 하지만 레이아웃, 서명란, 표 구조, 그리고 읽는 사람이 어떤 단어에서 확신이 없었는지에 대한 감각은 모두 잃게 됩니다. Mistral OCR 4는 모든 섹션에 라벨이 붙어 있고, 모든 표에 상자가 그려져 있으며, 모든 서명이 표시되어 있고, 모호한 부분에는 여백 메모가 달린 문서를 돌려주는 법률 보조원(paralegal)에 더 가깝습니다.

공식 발표에 따르면, 세 가지 구조적 출력(structural outputs)이 이를 가능하게 합니다:

경계 상자 (Bounding boxes) — 페이지 상의 각 텍스트 요소의 위치를 나타내는 좌표입니다. 이는 Mistral의 '가장 요청이 많았던 기능'이었습니다. 이를 통해 문맥 내 하이라이팅(사용자에게 페이지의 정확히 어느 부분에서 답변이 나왔는지 보여줌)과 신뢰할 수 있는 데이터 파이프라인(data pipelines) 구축이 가능해집니다.
타입 블록 분류 (Typed-block classification) — 각 블록은 제목, 표, 수식, 서명 등의 역할에 따라 라벨이 지정됩니다. 이것이 단순한 텍스트 덤프를 에이전트(agent)가 실행할 수 있는 구조적 기본 요소(structural primitives)로 변환하는 핵심입니다.
인라인 신뢰도 점수 (Inline confidence scores) — 페이지 및 단어별로 생성되며, 소스 기반 인용(source-grounded citations), 비식별화(redactions), 그리고 인간 참여형 검증(human-in-the-loop verification)을 유도합니다. 신뢰도가 낮은 영역은 사람에게 전달되고, 신뢰도가 높은 영역은 그렇지 않습니다.

Mistral OCR 4가 RAG 파이프라인에서 조정 격차를 해소하는 방법

  1

    **문서 수집 (PDF / DOC / PPT / ODF)**

기업용 원본 문서가 Mistral OCR 4 API 또는 셀프 호스팅 (self-hosted) 컨테이너를 통해 입력됩니다. 입력 예시: 40페이지 분량의 스캔된 송장(invoice) 배치.

↓

  2
...

텍스트 + 경계 상자 (bounding boxes) + 유형화된 블록 (typed blocks) + 단어별 신뢰도 (confidence)를 반환합니다. 출력물은 단순한 텍스트의 벽이 아니라, 조정 (coordination)이 가능한 상태로 제공됩니다.

↓

  3
...

유형화된 블록은 자연스러운 검색 단위 (retrieval units)가 됩니다. 표 (tables)는 온전하게 유지되고, 제목 (titles)은 섹션을 고정합니다. 더 이상 RAG를 망가뜨리는 분절된 표는 발생하지 않습니다.

↓

  4
...

정제된 청크 (chunks)는 깔끔하게 임베딩 (embed)됩니다. 경계 상자 (bounding box) 메타데이터가 각 청크와 함께 전달되어, 페이지로의 인용 (citation-back-to-page)이 가능합니다.

↓

  5
...

에이전트 (agent)는 원본 페이지의 정확한 상자를 강조하는, 소스에 근거한 인용 (source-grounded citation)과 함께 답변합니다. 신뢰도 점수 (confidence scores)는 자동 승인과 사람의 검토를 구분하는 게이트 역할을 합니다.

이 시퀀스가 중요한 이유는 2단계에서 발생하는 모든 구조적 손실이 3~5단계를 거치며 복리로 누적되기 때문입니다. 이러한 복리적 손실이 바로 AI 조정 격차 (AI Coordination Gap)입니다.

OCR 4는 일반적인 기업용 형식인 PDF, DOC, PPT 및 OpenDocument를 지원하며, '많은 시스템이 제대로 처리하지 못하는 특수 및 저자원 언어 (specialized and low-resource languages)'를 포함하여 10개 언어 그룹에 걸친 170개 언어를 지원합니다. 단일 컨테이너에 배포 가능한 컴팩트 모델 (compact model)로서, 비용에 민감한 환경과 대량 처리 환경 모두에 적합합니다. 셀프 호스팅 (self-hosted) 방식은 문서가 귀하의 인프라를 절대 벗어나지 않음을 의미하며, 이는 컴플라이언스 담당자 (compliance officer)가 질문을 던지는 순간 매우 중요해집니다.

Diagram comparing flat text OCR output versus Mistral OCR 4 structured output with bounding boxes and typed blocks

전과 후: 전통적인 OCR은 평면적인 텍스트의 벽을 생성하지만, Mistral OCR 4는 다운스트림 (downstream) RAG와 에이전트가 신뢰성 있게 소비할 수 있는 구조화되고 조정 가능한 표현을 생성합니다.