멀티모달 AI 비용을 98% 절감한 방법 — 2026 가이드 - Insights | Molayo

멀티모달 AI에 대해 글을 쓸 계획은 없었습니다. 솔직히 말해서, 정말 아니었습니다. 저는 그저 손으로 쓴 영수증을 계속 잘못 읽는 인보이스 파서(invoice parser)의 버그를 수정하려 했을 뿐이었습니다. 그게 3주 전의 일입니다. 이제 저는 9개의 브라우저 탭을 열어두고, 감당할 수 없을 정도로 커진 비교 스프레드시트와, 매달 약 1,500달러를 아낄 수 있다고 말해주는 절약 계산기를 앞에 두고 있습니다. 문제는 이겁니다 — 비전 모델(vision models)이 이렇게 저렴해졌을 줄은 전혀 몰랐습니다.

제가 발견한 것들을 여러분께 공유하겠습니다. 만약 여러분이 이미지 이해(image understanding)를 위해 제가 예전에 지불했던 금액과 비슷한 수준을 지불하고 있다면, 여러분은 돈을 낭비하고 있는 것입니다. 저에게는 정말 말도 안 되는 일입니다. 우리는 LLM 비용 최적화(cost optimization)에 대해 끊임없이 이야기하지만, 멀티모달(multimodal) 가격 책정은 어떤가요? 아무도 신경 쓰지 않는 것 같습니다. 하지만 저는 신경을 썼습니다. 왜냐하면 지난번 청구서를 보고 육체적으로 움찔할 정도였으니까요.

모든 것의 시작이었던 영수증 문제

상상해 보세요: 대부분 중국어로 되어 있고, 일부는 영어이며, 몇몇은 제 OCR 친화적인 뇌로는 해독할 수 없는 커피 얼룩이 묻은 47페이지 분량의 PDF 영수증 뭉치를 말입니다. 저는 제가 접근할 수 있는 가장 인기 있는 비전 모델(vision model)에 그것을 던져 넣었고, 마치 소형차 한 대를 산 것처럼 제 잔액이 떨어지는 것을 지켜보았습니다. 출력 토큰(output tokens) 100만 개당 3.00달러. 47페이지 분량에 대해 말이죠. 128K 컨텍스트(context) 기준입니다. 실제 작업량에 대해 계산해 보기 전까지는 그것이 합리적으로 들렸습니다.

만약 제가 Doubao-Seed-2.0-Pro를 통해 한 달에 10,000장의 이미지를 처리한다면, 비전 비용만으로 150달러를 지불하게 됩니다. 이는 매년, 영원히 연간 1,800달러를 지불하는 셈입니다. 오직 OCR을 위해서 말이죠. 저는 화면을 응시하며 생각했습니다 — 분명 더 저렴한 방법이 있을 것이라고.

이것을 확인해 보세요: 분명히 있습니다.

제가 결국 테스트하게 된 라인업

Global API를 통해 제가 던져준 거의 모든 유스케이스(use case)를 커버하는 9개의 멀티모달 모델에 접근할 수 있었습니다. 결론부터 말씀드림 없이 바로 말씀드리겠습니다 — 여기 비전 가격 책정에 대한 제 생각을 완전히 바꿔놓은 표가 있습니다.

모델 (Model)	제공자 (Provider)	모달리티 (Modalities)	출력 $/M (Output $/M)	컨텍스트 (Context)
Qwen3-VL-32B	Qwen	이미지 + 텍스트 (Image + Text)	$0.52	32K
...

잠깐만요. 네 번째 행을 다시 읽어보세요. GLM-4.5V입니다. 1센트. 1센트라고요. 출력 토큰 100만 개당 말입니다. 오타가 아닙니다. 베타 버전 할인도 아닙니다. 이것이 실제 가격입니다. 이 이야기는 나중에 다시 하겠지만, 여러분이 무슨 생각을 하는지 알고 있습니다. "그래봤자 성능이 형편없는 거 아니에요?"라고 생각하시겠죠. 친구여, 조금만 인내심을 가져보세요.

저에게 진짜 충격적이었던 것은 격차였습니다. 이 목록에서 가장 비싼 모델은 가장 저렴한 모델보다 300배나 더 비쌉니다. 300배라고요. 만약 누군가 휘발유 가격이 이렇다고 말했다면, 저는 당장 내일 차를 바꿨을 겁니다. 여기에도 똑같은 논리가 적용됩니다.

나의 4단계 테스트 관문 (My Four-Test Gauntlet)

저는 작은 벤치마크 제품군 (benchmark suite)을 구축했습니다. 거창한 것은 아닙니다. 실제 팀들이 실행하는 멀티모달 워크로드 (multimodal workloads)를 다루도록 설계된 네 가지 테스트입니다. 객체 인식 (Object recognition), OCR (광학 문자 인식), 차트 이해 (chart understanding), 그리고 코드-스크린샷 변환 (code-screenshot conversion)입니다. 저는 각 모델을 모든 테스트에 통과시키고, 점수를 매겼으며, 1,000회 호출당 달러 비용을 추적했습니다.

테스트 1: 거리 장면 인식 (Street Scene Recognition)

저는 복잡한 거리 사진을 하나 가져왔습니다. 3개 국어의 표지판, 수십 명의 사람들, 세 개의 자동차 브랜드, 유기견 한 마리, 그리고 읽을 수 있는 텍스트가 적힌 커피 컵이 포함된 사진입니다. 그런 다음 모든 모델에게 물었습니다: "당신이 보는 모든 것을 설명하세요."

Qwen3-VL-32B가 별 5개와 함께 1위를 차지했습니다. 15개 이상의 객체를 찾아냈고, 특정 브랜드를 언급했으며, 심지어 커피 컵의 텍스트까지 읽어냈습니다. 원시적인 세부 정보 밀도 (raw detail density) 면에서 다른 어떤 모델도 근접하지 못했습니다. GLM-4.6V는 매우 강력한 결과와 함께 2위를 차지했는데, 특히 아시아 맥락 (Asian-context) 요소에서 강점을 보였습니다 (Zhipu 제품이니 당연한 결과입니다). Qwen3-Omni-30B가 바로 그 뒤를 이었으며, 설명은 약간 적었지만 여전히 탄탄했습니다. Hunyuan-Vision은 VL이 잡아낸 작은 세부 사항들(읽을 수 있는 표지판, 멀리 있는 로고 등)을 놓쳤습니다. 그리고 GLM-4.5V는요? 완벽하게 수용 가능한 별 3개짜리 요약을 내놓았습니다. 놀랍지는 않지만, $0.01/M 가격이라면? 완전히 사용 가능합니다.

테스트 2: 다국어 OCR (Multi-Language OCR)

이 테스트는 제 영수증 처리에서 가장 중요했던 테스트였습니다. 저는 영어 문단, 한자, 혼합된 섹션, 세 가지 다른 폰트의 각주가 포함된 다국어 문서를 모든 모델에 던져보았습니다.

Qwen3-VL-32B는 전 분야에서 완벽하게 해냈습니다. 영어, 중국어, 혼합형 모두 별 다섯 개였습니다. GLM-4.6V는 특히 중국어 부분에서 실제로 약간 더 뛰어났는데, 이 또한 납득할 만한 결과입니다. Hunyuan-Vision은 중국어는 괜찮았지만 영어 섹션에서 비틀거렸습니다. 이중 언어 콘텐츠에 대한 순수 OCR (Optical Character Recognition) 워크로드에서는 Qwen VL 제품군이 의문의 여지 없이 승자입니다.

테스트 3: 차트 및 다이어그램 (Charts and Diagrams)

막대그래프는 시각 모델 (Vision models)에게 기만적일 정도로 어렵습니다. 숫자를 추출하고, 축을 이해하며, 트렌드를 식별하고, 이를 자연어로 요약해야 하기 때문입니다. 저는 제가 직접 만든 차트로 모든 모델을 테스트했기에 정답을 알고 있었습니다.

Qwen3-VL-32B는 모든 데이터 포인트를 완벽하게 추출하고 깔끔한 트렌드 요약을 제공했습니다. GLM-4.6V는 사소한 라벨 하나를 놓쳤지만 트렌드 분석은 훌륭했습니다. Qwen3-Omni-30B는 두 축 모두에서 매우 좋은 결과를 냈습니다. 만약 귀하의 팀이 차트-인사이트 (chart-to-insight) 워크플로우와 관련된 작업을 수행한다면, 바로 이 지점에서 Qwen 모델들이 확실히 앞서 나갑니다.

테스트 4: 코드 스크린샷 변환 (Code Screenshot Conversion)

이 테스트는 제게 매우 각별한데, 제가 Twitter에서 코드 스크린샷을 너무 많이 찍기 때문입니다. Qwen3-VL-32B는 95%의 정확도를 기록하며 이상한 들여쓰기와 특수 문자를 처리해냈습니다. GLM-4.6V는 약간의 서식 오류와 함께 90%를 기록했습니다. Qwen3-Omni-30B는 92%를 기록했는데, 정확하지만 약간 더 느렸습니다. 솔직히 이 테스트가 더 어려울 것이라고 예상했는데, 이 모델들은 정말 훌륭합니다.

$0.01의 놀라움

자, 이제 GLM-4.5V에 대해 이야기해 봅시다. 이 모델은 정말 놀랍기 때문에 별도의 섹션으로 남겨두었습니다. 출력 토큰 100만 개당 $0.01의 가격으로, GLM-4.6V보다 80배 저렴하며 Doubao-Seed-2.0-Pro보다 300배 저렴합니다.

월 10,000장의 이미지 워크로드 기준:

GLM-4.5V 비용: $0.50
Doubao-Seed-2.0-Pro 비용: $150

무려 300배 차이입니다. 300배라고요! 정확히 동일한 작업에서 말이죠. 저는 재앙을 예상하며 전체 벤치마크(benchmark) 제품군을 실행해 보았는데, 결과가 어땠을까요? 단순한 이미지 설명(image description), 기본적인 OCR, 그리고 직관적인 객체 인식(object recognition)에서

실제 수치를 보여드리겠습니다. 이 부분은 제가 약간 열광하게 되는 지점인데, 퍼센트(%) 단위의 절감도 좋지만 달러($) 단위의 절감이 실제로 월세를 내게 해주기 때문입니다.

이미지 1,000개 분석 시:

GLM-4.5V: ~$0.05
Qwen3-VL-8B: ~$2.50
Qwen3-VL-32B: ~$2.60
Qwen3-Omni-30B: ~$2.60 (오디오 기능 포함)
GLM-4.6V: ~$4.00
Hunyuan-Vision: ~$6.00
Doubao-Seed-2.0-Pro: ~$15.00

월간 이미지 10,000개 분석 시:

GLM-4.5V: $0.50/month
Qwen3-VL-8B: $25/month
Qwen3-VL-32B: $26/month
Qwen3-Omni-30B: $26/month
GLM-4.6V: $40/month
Hunyuan-Vision: $60/month
Doubao-Seed-2.0-Pro: $150/month

1년 동안 Doubao-Seed-2.0-Pro와 Qwen3-VL-32B 사이의 차액은 $1,488입니다. 이것은 단순한 반올림 오차가 아닙니다. AWS(Amazon Web Services) 비용 두 달 치에 해당합니다. 혹은 도쿄행 비행기 티켓일 수도 있고, 여러분의 우선순위에 따라 새로운 기계식 키보드일 수도 있습니다.

1년 동안 GLM-4.5V와 Doubao-Seed-2.0-Pro를 비교하면 $1,794를 절약할 수 있습니다. 동일한 워크로드(workload)에 대해서 말이죠.

저는 현재 이 두 가지 스니펫(snippet)을 프로덕션(production) 환경에서 실행하고 있습니다. 첫 번째는 영수증 OCR 파이프라인을 처리합니다. 두 번째는 고객 지원 통화 녹음 파일을 처리합니다. 두 가지를 합친 총 월간 비용은 약 $30입니다. Global API를 사용하기 전에는 통화 녹음 파이프라인 하나만으로도 다른 제공업체에서 $90 이상의 비용이 발생했습니다.

나의 라우팅 전략 (진정한 비결)

여기가 제가 가장 많은 돈을 아낀 부분입니다. 저는 모든 작업에 하나의 모델만 사용하지 않습니다. 각 요청을 처리할 수 있는 가장 저렴한 모델을 선택하는 라우터(router)를 구축했습니다.


python
def route_request(image, prompt):
...

멀티모달 AI 비용을 98% 절감한 방법 — 2026 가이드

요약

핵심 포인트