Mistral OCR 4, RAG 파이프라인에 셀프 호스팅 가능한 문서 AI를 도입하다
요약
Mistral이 RAG 파이프라인의 데이터 수집 품질을 높이기 위한 문서 지능 모델 'Mistral OCR 4'를 출시했습니다. 이 모델은 PDF, 표, 수식 등을 구조화된 데이터로 변환하며, API와 단일 컨테이너를 통한 셀프 호스팅 배포를 지원합니다.
핵심 포인트
- 텍스트 추출, 경계 상자, 블록 분류 등 고도화된 문서 구조화 기능 제공
- 단일 컨테이너 기반 셀프 호스팅 지원으로 보안 및 규제 준수 용이
- RAG 및 도메인 특화 검색 파이프라인의 데이터 수집 단계 최적화
- 페이지 단위의 명확한 가격 모델(API 및 Batch) 제공
Mistral OCR 4, RAG 파이프라인에 셀프 호스팅 가능한 문서 AI를 도입하다
Mistral은 PDF, 스캔본, 양식, 표, 수식 및 혼합 레이아웃 문서를 구조화된 출력으로 변환하기 위한 특화된 문서 지능 (document-intelligence) 모델인 Mistral OCR 4를 출시했습니다. 이는 현재 매우 중요한데, 많은 유용한 기업용 AI가 여전히 데이터 수집 (ingestion) 단계에서 실패하기 때문입니다. 소스 문서가 잘못 파싱되면, 그 위에 구축된 RAG 앱, 검색 인덱스 (search index), 컴플라이언스 워크플로 (compliance workflow) 또는 에이전트 (agent)는 이미 망가진 상태가 됩니다.
이것은 벤치마크 유출이 아닌 공식 모델 출시입니다. Mistral이 API, Document AI, 그리고 단일 컨테이너 셀프 호스팅 배포 (self-hosted deployment)를 통해 모델을 제공하기 때문에, 문서 중심의 제품을 구축하는 팀들에게 특히 유의미합니다.
Mistral의 발표 내용
Mistral은 OCR 4가 단순한 텍스트 추출 이상의 기능을 제공한다고 밝힙니다. 이 모델은 다음과 같은 출력을 생성할 수 있습니다:
- 텍스트 추출 (text extraction);
- 원본 문서 내 콘텐츠 위치 파악을 위한 경계 상자 (bounding boxes);
- 제목, 표, 수식, 서명과 같은 요소에 대한 유형별 블록 분류 (typed block classification);
- 인라인 신뢰도 점수 (inline confidence scores);
- 10개 언어 그룹 내 170개 언어에 대한 다국어 OCR.
회사는 이 모델이 기업용 검색, RAG, 그리고 도메인 특화 검색 (domain-specific retrieval) 파이프라인을 위한 수집 (ingestion) 구성 요소로 설계되었다고 말합니다. 또한 수집, 검색 및 평가 워크플로를 위한 회사의 오픈 소스 프레임워크인 Mistral Search Toolkit과 통합되어 있습니다.
Mistral은 OCR 4가 테스트된 다른 OCR 및 문서 AI 시스템에 비해 독립적인 주석가(annotators)들로부터 평균 72%의 선호도를 얻었으며, OlmOCRBench에서 85.20점을 기록했다고 주장합니다. 언제나 그렇듯, 벤더의 벤치마크 주장은 구매 결정이 아닌 테스트를 위한 시작점으로 간주하십시오.
배포 및 가격
빌더(builder)에게 미치는 영향은 OCR 4가 단순한 호스팅 데모가 아니라는 점입니다. Mistral은 완전한 셀프 호스팅 (self-hosted) 배포를 위해 단일 컨테이너에서 실행될 수 있다고 밝히고 있으며, 이는 규제 대상 문서, 개인 고객 데이터, 내부 지식 베이스, 계약서, 의료 서류, 보험 파일, 송장(invoice) 또는 금융 문서를 다루는 팀에게 매우 중요합니다.
Mistral의 가격 페이지에서 이 모델은 mistral-ocr-latest로 나열되어 있으며, 가격은 다음과 같습니다:
- OCR API: 1,000페이지당 $4;
- Batch API: 1,000페이지당 $2;
- Document AI: 1,000페이지당 $5.
이는 문서 추출 워크로드(workload)에 대해 팀들에게 토큰 전용 가격 책정 방식보다 더 깔끔한 비용 모델을 제공합니다.
빌더가 주목해야 하는 이유
지저분한 문서들을 대상으로 RAG (Retrieval-Augmented Generation)를 구축하고 있다면, OCR 품질이 곧 제품의 품질입니다. 더 나은 레이아웃 추출 (layout extraction)과 신뢰도 메타데이터 (confidence metadata)는 다음과 같은 부분에서 눈에 띄는 차이를 만들어낼 수 있습니다:
- 소스에 근거한 인용 (source-grounded citations);
- 인간 검토 대기열 (human review queues);
- 비식별화 (redaction) 및 컴플라이언스 (compliance) 워크플로;
- 표(table)가 많은 기업용 검색;
- 계약서 및 송장 파싱 (parsing);
- 요약본을 환각(hallucinate)하는 대신 원본 문서를 인용해야 하는 지원 에이전트.
경계 상자 (bounding-box) 지원은 특히 실용적입니다. 이를 통해 앱은 답변이 어디에서 왔는지 강조하거나, 신뢰도가 낮은 필드를 사람에게 전달하거나, 모든 것을 텍스트 덩어리로 평탄화(flattening)하는 대신 문서 구조를 보존할 수 있습니다.
셀프 호스팅 옵션 또한 중요합니다. 어떤 기업들은 모델이 뛰어나더라도 문서를 제3자 API로 보낼 수 없습니다. 컨테이너화된 배포는 민감한 파일을 자체 환경 외부로 이동시키지 않고도 Mistral의 스택을 사용할 수 있는 경로를 해당 팀들에게 제공합니다.
주의 사항
OCR 4는 전문화된 모델이며, 새로운 범용 프런티어 모델 (general-purpose frontier model)이 아닙니다. 팀들은 기존 OCR을 교체하기 전에 자신들의 문서로 직접 테스트해야 하며, 특히 수기 양식, 저품질 스캔본, 니치 언어 (niche languages), 특이한 표, 그리고 추출 오류가 법적 또는 재정적 결과를 초래할 수 있는 문서의 경우 더욱 주의가 필요합니다.
또 다른 미결 과제는 패키징(packaging)입니다. Mistral은 셀프 호스팅 (self-hosting)이 가능하다고 밝혔으나, 팀들은 여전히 하드웨어 요구 사항, 라이선스 약관, 처리량 (throughput), 관찰 가능성 (observability), 그리고 컨테이너가 보안 검토 (security review)에 어떻게 부합하는지를 확인해야 할 것입니다.
출처
- Mistral 공지: https://mistral.ai/news/ocr-4/
- Mistral 가격 정책: https://mistral.ai/pricing
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기