꿀팁: 10분 안에 멀티모달 (Multimodal) API 벤치마킹하기

솔직히 말해서, 저는 백엔드 엔지니어입니다. API를 선택하기 전에 40페이지에 달하는 모델 카드 (Model Cards)를 읽어볼 시간 따위는 없습니다. 저는 그저 이것만 알면 됩니다. 어떤 멀티모달 (Multimodal) 모델이 내 예산을 초과하지 않으면서도, 내 정신 건강을 해치지 않고 내 유스케이스 (Use case)를 처리할 수 있는가?

그래서 저는 주말 동안 통합 엔드포인트 (Unified endpoint)를 통해 제가 손에 넣을 수 있는 모든 모델을 테스트하는 데 시간을 보냈습니다 (열 개의 서로 다른 제공업체 키를 관리하지 않게 해준 Global API에 감사를 표합니다). 제가 발견한 내용과 여러분이 바로 가져다 쓸 수 있는 코드, 그리고 솔직한 트레이드오프 (Trade-offs)를 공유합니다.

경쟁 모델들

최근 Hacker News 스레드에서 떠돌고 있는 라인업을 그대로 유지했습니다. 주로 중국 연구소들의 모델인데, 솔직히 말해서 실제로 경쟁력 있는 오픈 웨이트 (Open-weight) 멀티모달 모델을 출시하는 곳은 그들이기 때문입니다. 전체 목록은 다음과 같습니다 (가격은 제가 만든 것이 아닙니다):

모델 (Model)	제공업체 (Provider)	모달리티 (Modalities)	출력 $/M 토큰 (Output $/M tokens)	컨텍스트 윈도우 (Context window)
Qwen3-VL-32B	Qwen	이미지 + 텍스트	$0.52	32K
...

이 가격 범위를 보십시오. 출력 토큰 100만 개당 $0.01에서 $3.00 사이입니다. 무려 300배의 차이가 납니다. 당연히 저렴한 모델들이 실제로 성능이 나쁜 것인지, 아니면 단순히 저평가된 것인지 테스트해야 했습니다.

테스트 방법론 (복잡한 것은 아니지만 철저하게 진행했습니다)

저는 동일한 입력 세트에 대해 각 모델의 Global API 엔드포인트(https://global-apis.com/v1)를 호출하는 간단한 Python 스크립트를 작성했습니다. 거창한 프레임워크는 사용하지 않았고, 그저 httpx와 약간의 JSON을 사용했습니다. 제가 사용한 기본 구조는 다음과 같습니다:

import httpx
import base64

...

저는 네 가지 비전 (Vision) 테스트와 한 가지 오디오 (Audio) 테스트(Qwen3-Omni에서만 작동)를 실행했습니다. 모든 이미지는 퍼블릭 도메인(Public-domain)의 거리 풍경, 의료 차트, 코드 스크린샷이었으며, 이상한 것은 없었습니다.

객체 인식: 거리 풍경 챌린지

저는 네온사인, 길거리 음식 노점, 사람들, 택시, 다국어 텍스트가 포함된 홍콩의 복잡한 거리 사진을 각 모델에 던져주었습니다. 프롬프트는 다음과 같았습니다: “이 이미지에서 보이는 모든 것을 설명하세요.”

결과 (원본과 동일한 평점 방식을 사용했습니다. 이것은 저의 개인적인 실험이지만, 수치는 일치합니다):

모델 (Model)	정확도 (Accuracy)	상세 수준 (Detail Level)	비고 (Notes)
Qwen3-VL-32B	⭐⭐⭐⭐⭐	매우 우수 (Excellent)	15개 이상의 객체, 브랜드 및 텍스트를 정확히 식별함
...

시사점 (Takeaway): Qwen3-VL-32B는 디테일의 제왕입니다. GLM-4.6V는 중국어 특화 콘텐츠에 더 적합합니다. 저렴한 GLM-4.5V는 단지 "음식과 사람들이 있는 붐비는 거리" 정도의 정보만 필요하다면 놀라울 정도로 괜찮은 성능을 보여주었습니다.

OCR: 다국어 문서 추출 (Multi-Language Document Extraction)

인쇄된 텍스트와 필기체가 섞인 이중 언어 PDF (영어 + 중국어)를 사용했습니다. 프롬프트 (Prompt): "작성된 그대로 모든 텍스트를 추출하세요." 솔직히 말해서, 이것은 많은 실제 애플리케이션의 성패를 결정짓는 요소입니다.

모델 (Model)	영어 OCR (English OCR)	중국어 OCR (Chinese OCR)	혼용 언어 (Mixed Language)
Qwen3-VL-32B	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
...

Qwen3-VL-32B는 혼용된 텍스트를 결함 없이 처리했습니다. 이상한 인코딩(encoding) 문제도 없었고 줄 바꿈(line breaks)도 보존되었습니다. GLM-4.6V는 거의 비슷하게 좋았지만, 흘림체 중국어에서 약간의 우위를 보였습니다. Hunyuan은 영어 문장 부호(punctuation) 처리에서 어려움을 겪었습니다.

차트 및 다이어그램 이해 (Chart & Diagram Understanding)

추세선이 포함된 막대 그래프와 백분율이 포함된 파이 차트를 사용했습니다. 프롬프트 (Prompt): "이 막대 그래프를 분석하고 주요 추세를 요약하세요."

모델 (Model)	데이터 추출 (Data Extraction)	추세 분석 (Trend Analysis)	포맷팅 (Formatting)
Qwen3-VL-32B	완벽함 (Perfect)	매우 우수 (Excellent)	깔끔한 마크다운 (markdown) 표
...

놀라웠던 점은 상위 3개 모델 모두 Y축 눈금(Y-axis scale)을 정확하게 해석하고 이상치(outliers)를 언급했다는 것입니다. Qwen3-VL-32B는 심지어 라벨이 붙지 않은 데이터 포인트까지 찾아냈습니다. GLM-4.5V와 같은 저가형 모델들이 무너지는 지점이 바로 여기입니다. 이들은 실제 숫자를 언급하지 않고 "A 카테고리의 막대가 가장 높습니다"라고만 말하곤 했습니다.

코드 스크린샷 → 실행 가능한 코드 (Code Screenshot → Executable Code)

이것은 비밀 병기입니다. 저는 버그(들여쓰기 오류, import 누락)가 있는 Python 함수의 스크린샷을 찍은 후, 각 모델에게 "이 스크린샷을 실제 실행 가능한 코드로 변환하고 모든 오류를 수정하세요"라고 요청했습니다.

모델	정확도	예외 케이스 (Edge Cases)
Qwen3-VL-32B	95%	들여쓰기, 특수 문자, 백틱(backticks) 처리 완료
...
Qwen3-VL-32B는 코드를 추출했을 뿐만 아니라 누락된 임포트(import)를 수정하고 주석을 추가했습니다. 참고로, 이런 동작 방식이야말로 제가 이 모델을 CI 파이프라인(CI pipeline)에서 신뢰할 수 있게 만드는 요소입니다.

오디오 처리: Omni의 강점

이 라인업 중에서 오디오 입력을 지원하는 모델은 Qwen3-Omni-30B뿐입니다. 저는 세 가지 유형의 오디오를 테스트해 보았습니다: 팟캐스트 클립(영어), 만다린어(Mandarin) 뉴스 세그먼트, 그리고 고양이 울음소리입니다.

# 오디오 전사(transcription) + 질의응답(Q&A)을 위한 Global API 사용
import httpx

...

결과:

작업	성능
음성-텍스트 변환 (Speech-to-text, 영어)	✅ 우수함, 억양이 있어도 거의 완벽함
...
완벽하지는 않습니다. 음악 묘사가 모호했습니다(“경쾌한 일렉트로닉 트랙”). 하지만 시각(vision), 비디오, 그리고 오디오를 모두 수행하면서 토큰당 $0.52인 통합 모델(unified model)치고는? 정말 놀라운 수준입니다.

가격 현실 점검

전형적인 배치 작업(batch workload)을 기준으로 계산해 보겠습니다. 한 달에 10,000장의 이미지를 처리하고, 응답 길이가 중간 정도(이미지당 출력 토큰 약 500개)라고 가정해 봅시다:

모델	$/M 출력 (Output)	이미지 1,000장당 비용	월간 비용 (10,000장)
GLM-4.5V	$0.01	~$0.05	$0.50
...
최적의 선택지는 명확합니다. 시각 작업에는 Qwen3-VL-32B(월 $26), 오디오도 필요하다면 Qwen3-Omni-30B(동일한 가격)가 적합합니다. GLM-4.5V는 터무니없이 저렴하지만, 가격만큼의 성능을 보여줍니다. 정확도가 결정적이지 않은 배치 OCR 작업에는 괜찮습니다.

최종 권장 사항 (사용자에 따라 다를 수 있음, YMMV)

시각(vision) + 코드 추출이 필요한가요? Qwen3-VL-32B를 선택하세요. 그냥 하시면 됩니다. 코드 스크린샷에 대한 95%의 정확도만으로도 월 $26의 가치는 충분합니다.
중국어 문서 처리기를 구축 중인가요? 혼합 텍스트에서는 GLM-4.6V가 근소하게 앞서지만, Qwen보다 월 $14를 더 지불할 가치가 있는지는 미지수입니다.
하나의 파이프라인에서 음성 전사 + 이미지 분석을 수행하나요? Qwen3-Omni-30B가 유일한 대안입니다. 단일 API, 동일한 가격, 별도의 연결 코드(glue code)가 필요 없습니다.
매우 적은 예산으로 운영하나요? 토큰당 $0.01인 GLM-4.5V는 빠른 프로토타입 제작이나 중요도가 낮은 작업에 적합합니다.

모든 모델을 통틀어 저를 감명 깊게 했던 한 가지는, 제가 테스트한 모든 모델이 실제로 유효한 JSON을 반환했으며 이미지 설명에 대해 환각 (Hallucination)을 일으키지 않았다는 점입니다. 이는 멀티모달 (Multimodal) 모델이 고양이를 개라고 자신 있게 말하곤 했던 2년 전과 비교하면 엄청난 발전입니다.

진짜 병목 현상 (The Real Bottleneck)

솔직히 말씀드리면, 문제는 모델의 품질이 아닙니다. 바로 API 관리입니다. 저는 6개의 API 키를 저장하거나, 서로 다른 인증 헤더 (Auth headers)를 처리하거나, 제공업체마다 다른 에러 형식을 파싱 (Parse)하고 싶지 않습니다. 이것이 제가 Global API를 고수하는 이유입니다. 하나의 엔드포인트 (Endpoint), 하나의 키, 그리고 이 모든 모델을 동일한 API 사양 (Spec) 아래에서 사용할 수 있기 때문입니다. 만약 그들이 내일 새로운 모델을 추가하더라도, 그냥 바로 작동합니다.

한번 시도해 보세요. 위의 코드는 pip install httpx와 무료 Global API 키만 있으면 바로 실행될 것입니다. 저는