문서당 1페니 미만의 비용

요약

비전 모델(Vision Model)을 활용한 문서 처리 비용이 실제로는 문서당 1페니 미만으로 매우 저렴함을 설명합니다. 전통적인 OCR 방식과 비교하여 API 비용뿐만 아니라 개발 및 유지보수에 드는 총 소유 비용(TCO) 관점에서의 효율성을 강조합니다.

핵심 포인트

GPT-4o 등 비전 API는 문서당 1센트 미만의 비용으로 처리 가능
전통적 OCR은 API 비용은 낮으나 개발 및 수동 검토 비용이 높음
비전 모델은 복잡한 레이아웃과 손글씨 처리에 압도적으로 유리
단순 템플릿 기반 대량 처리는 전통적 OCR이 여전히 경제적

사람들은 "비전 모델 (vision model)"이라는 말을 들으면 비쌀 것이라고 가정합니다.

그럴 만합니다. 저도 똑같이 생각했습니다.

청구서

문서당 1페니(1 cent) 미만입니다.

현재 GPT-4o는 입력 토큰 100만 개당 약 2.50달러를 부과합니다. 문서 사진은 이미지에 약 1,000~2,000 토큰이 소요되고, 프롬프트(prompt)와 응답(response)을 위해 몇 백 토큰이 추가됩니다. 이는 0.003달러에서 0.008달러 사이입니다.

1센트보다 적은 금액입니다.

아무도 비교하지 않는 것

Textract 역시 페이지당 비용이 저렴합니다. 1,000페이지당 약 1.50달러 정도입니다. 단위당 비용만 따지면 실제로 비전 API (vision API)보다 더 저렴합니다.

하지만 단위당 API 비용은 형편없는 비교 방식입니다.

Textract 방식이 실제로 치른 비용은 다음과 같습니다:

제 토요일 전체를 바쳤습니다. 파이프라인 (pipeline), 전처리 (pre-processing), 정규 표현식 파서 (regex parsers), 수동 검토 대기열 (manual review queue). 합리적인 시급을 기준으로 계산하면, 단 하나의 문서라도 올바르게 처리되기 전까지 수천 달러가 들어갑니다.

70%의 수동 검토. 모든 오류를 찾아내는 것보다 차라리 내용을 다시 타이핑하는 것이 절반의 시간은 더 빠릅니다.

그렇다면 비전 API 방식은 어떨까요? 일요일 아침 두 시간이면 충분했습니다. 통합 (integration) 코드를 작성하고, 몇 개의 문서를 테스트하고, 프롬프트 (prompt)를 미세 조정합니다. 끝입니다. 5~10% 정도가 검토 대상으로 분류되지만, 이는 금방 수정할 수 있는 것들입니다. 숫자 하나, 약어 하나 정도죠. 전체를 다시 타이핑할 필요는 없습니다.

수치

500개의 문서:

	Textract	Vision API
API 비용	~$0.75	~$2.50
...	...	...

API 호출당 비용은 더 높습니다. 하지만 그 외의 모든 면에서는 더 낮습니다.

언제 무엇을 사용할 것인가

비전 API가 항상 옳다고 거짓말하지는 않겠습니다. 동일한 템플릿, 동일한 레이아웃, 동일한 위치에 동일한 필드를 가진 수백만 개의 동일한 문서가 있는 경우에는 전통적인 OCR (Optical Character Recognition)이 여전히 유효합니다. 템플릿 매칭 (Template matching)은 그런 상황에서 매우 잘 작동합니다. 이해할 맥락(context)이 아무것도 없는 상황에서 문맥을 이해하는 모델에 비용을 지불할 필요는 없습니다.

외부 API 호출을 할 수 없는 경우도 마찬가지입니다. 에어갭 (Air-gapped) 네트워크, 엣지 디바이스 (edge devices), 엄격한 데이터 거주성 (data residency) 요건이 있는 경우입니다. 로컬에서 Tesseract를 사용하면 그만입니다.

그리고 컴플라이언스 (compliance, 규정 준수) 문제입니다. 귀하의 OCR 제공업체는 이미 필요한 인증을 보유하고 있을 수 있지만, 비전 API 제공업체는 그렇지 않을 수도 있습니다.

하지만 손글씨 문서라면 어떨까요? 혼합된 레이아웃(Mixed layouts)은요? 단순히 문자만 추출하는 것이 아니라 구조(Structure)가 필요한 문서라면요? 가치 창출 시간(Time-to-value)이 중요한 상황이라면요? 매번 비전 API (Vision API)를 사용해야 합니다.

빠른 테스트

귀하의 문서 중 하나를 살펴보십시오.

그 문서를 무작위의 사람에게 건네주었을 때, 그 사람이 몇 초 안에 내용을 이해할 수 있습니까?

만약 그렇다면 - 비전 모델 (Vision model)입니다. 1페니 미만입니다.

만약 템플릿 (Template)으로 데이터를 추출할 수 있다면 - 대량 처리 시 전통적인 OCR (Traditional OCR)이 더 저렴합니다.

만약 사람조차 그 문서를 파악하기 어려워한다면 - 어떤 방식도 비용을 절감해주지 못합니다. 그것은 도구의 문제가 아니라 데이터 품질 (Data quality)의 문제입니다.

디지털화가 필요한 문서 더미를 쌓아두고 있고, 이미 OCR의 경로를 경험해 보았거나 그 과정이 어떻게 진행되는지 알기에 미뤄왔던 상황이라면 - 이 내용은 살펴볼 가치가 있습니다.

문서당 1페니 미만. 그것이 제가 실제로 지불하고 있는 비용입니다.

AI 자동 생성 콘텐츠

원문 바로가기

문서당 1페니 미만의 비용

요약

핵심 포인트

청구서

아무도 비교하지 않는 것

수치

언제 무엇을 사용할 것인가

빠른 테스트

댓글