AI API 가격 비교: 184개 모델의 정면 승부 — 부트캠프 졸업생으로서 배운 점 - Insights | Molayo

솔직히 말씀드릴게요. 부트캠프를 마친 후 처음 AI 앱을 만들기 시작했을 때, 저는 모든 API의 비용이 기본적으로 비슷할 것이라고 생각했습니다. 그냥 여기저기 몇 센트 정도 차이만 날 거라고 말이죠. 아, 제가 정말 틀렸습니다.

실제로 앉아서 수치를 확인했을 때 저는 충격을 받았습니다. 저렴한 쪽은 100만 토큰당 $0.01인 반면, 비싼 쪽은 100만 토큰당 $3.50에 달했습니다. 무려 350배 차이입니다! 동일한 작업에 대해서 말이죠! 이게 어떻게 가능한 일일까요?

제가 이 토끼굴(rabbit hole) 속으로 들어가며 발견한 것들을 안내해 드리겠습니다. 미리 경고하자면, 저는 아직 이 분야의 초보자입니다. 만약 제가 틀린 부분이 있다면 제 부트캠프 교육을 탓해 주세요. 하지만 가격은요? 그것은 사실입니다. 저는 2026년 5월의 Global API 플랫폼 데이터를 바탕으로 세 번이나 교차 검증했습니다.

모든 것이 깨달아진 순간

제 마음을 뒤흔든 사실은 이것입니다. DeepSeek V4 Flash를 사용하면 출력 토큰 100만 개당 $0.25로 GPT-4o 수준의 품질을 얻을 수 있습니다. 이를 출력 100만 개당 $10.00인 GPT-4o와 비교하면, 40배의 비용 절감이 가능하다는 뜻입니다. 40배 말입니다.

하지만 잠깐만요 — 더 놀라운 사실이 있습니다. 기본적인 챗봇이나 분류(classification) 작업 같은 아주 단순한 일에는 Qwen3-8B나 GLM-4-9B 같은 모델을 사용할 수 있는데, 이 모델들은 말 그대로 100만 토큰당 1센트의 비용이 듭니다. 단 1센트라니요! 이건 사실상 공짜나 다름없습니다.

부트캠프에서 첫 작은 챗봇을 만들 때 쿼리당 약 $0.002를 지불하며 그것이 저렴하다고 생각했던 기억이 납니다. 이제는 거의 비용을 들이지 않고도 할 수 있었다는 것을 압니다.

아무도 말하지 않는 가격 계층(Price Tiers)

저처럼 컴퓨터 과학을 전공하지 않은 사람도 이해할 수 있도록 이를 나누어 설명해 보겠습니다:

🟢 초저예산 (Ultra-Budget): 출력 토큰 100만 개당 $0.01 — $0.10

용도: 단순 채팅, 분류 (classification), 기본적인 질의응답 (Q&A)
예시 모델: Qwen3-8B, GLM-4-9B, Hunyuan-Lite

솔직히 제 대부분의 사이드 프로젝트는 여기서 시작합니다. 단순히 테스트 중인데 왜 더 많은 돈을 지불하겠습니까?

🟡 저예산 (Budget): 출력 토큰 100만 개당 $0.10 — $0.30

용도: 일반적인 개발, 프로토타이핑 (Prototyping), 적절한 품질이 필요한 앱
예시 모델: DeepSeek V4 Flash, Qwen3-32B, Step-3.5-Flash

이 구간이 저에게 가장 적합한 지점입니다. 100만 토큰당 $0.25인 DeepSeek V4 Flash는 이제 기본적으로 제가 가장 즐겨 사용하는 모델입니다.

🟠 Mid-Range (중급): 출력 토큰 100만 개당 $0.30 — $0.80

용도: 프로덕션 앱 (Production apps), 코딩 어시스턴트 (Coding assistants)
예시 모델: Hunyuan-Turbo, GLM-4.6, Doubao-Seed-Lite

🔴 Premium (프리미엄): 출력 토큰 100만 개당 $0.80 — $2.00

용도: 복잡한 추론 (Complex reasoning), 엔터프라이즈 (Enterprise) 작업
예시 모델: DeepSeek V4 Pro, MiniMax M2.5, GLM-5

🟣 Flagship (플래그십): 출력 토큰 100만 개당 $2.00 — $3.50

용도: 최첨단 사고 모델 (Thinking models), 복잡한 분석
예시 모델: DeepSeek-R1, Kimi K2.5, Kimi K2.6

전체 가격 순위 (내가 가장 선호하는 상위 30개)

자, 이제 제가 본격적으로 파고든 부분입니다. 저는 모든 모델을 출력 가격 기준으로 순위를 매겼습니다. 모든 가격은 Global API의 가격 데이터를 통해 검증된 출력 토큰 100만 개당 USD 기준입니다. 가장 저렴한 상위 30개를 보여드리겠습니다:

순위	모델	제공업체	출력 $/M	입력 $/M	컨텍스트 (Context)	사용 이유
1	Qwen3-8B	Qwen	$0.01	$0.01	32K	테스트 중이며 품질이 중요하지 않을 때
...

내가 실제로 이 모델들을 사용하는 방법 (코드 포함!)

단순히 이론만 이야기하지는 않겠습니다. 제가 모델을 테스트할 때 사용하는 실제 Python 코드입니다. 저는 하나의 엔드포인트(Endpoint)를 통해 이 모든 모델에 접근할 수 있기 때문에 Global API를 제공업체로 사용합니다.

초저예산 챔피언 테스트하기

import requests
import json

...

나의 주력 프로덕션 설정

import requests
import json

...

DeepSeek(저예산의 왕)에 대해 배운 점

결론적으로 DeepSeek는 현재 저예산 영역의 MVP(최우수 선수)라고 할 수 있습니다. 제가 발견한 내용은 다음과 같습니다:

출력 100만 토큰당 $0.25인 DeepSeek V4 Flash는 말도 안 되는 가성비를 보여줍니다. 저는 이를 GPT-4o(출력 100만 토큰당 $10)와 나란히 비교해 보았는데, 솔직히 말해서 대부분의 작업에서 차이점을 느낄 수 없었습니다. 코딩 질문의 경우? 기본적으로 동일합니다. 창의적인 글쓰기의 경우? 아마 약간 덜 시적일 수는 있겠지만, 97.5%를 절약할 수 있는데 그게 무슨 상관인가요?

다음으로 출력 100만 토큰당 $0.78인 DeepSeek V4 Pro가 있습니다. 여전히 GPT-4o보다 훨씬 저렴하며, 복잡한 추론 (Reasoning)을 훨씬 더 잘 처리합니다. 저의 부트캠프 최종 프로젝트(코드 리뷰 도구)를 위해 무거운 작업에는 V4 Pro를 사용했는데 아주 훌륭하게 작동했습니다.

그리고 출력 100만 토큰당 $2.50인 DeepSeek-R1은 어떨까요? 이것은 그들의 사고 모델 (Thinking model)입니다. 저는 수학 문제나 논리 퍼즐을 위해 단계별 추론 (Step-by-step reasoning)이 필요할 때 이 모델을 사용합니다. 더 비싸긴 하지만, 여전히 다른 제공업체의 유사한 모델들보다 저렴합니다.

아무도 말하지 않는 숨겨진 보석들

제가 우연히 발견하고 완전히 놀랐던 몇 가지 모델들을 소개합니다:

Baidu의 ERNIE-Speed-128K — 출력 100만 토큰당 $0.20이지만, 입력은 말 그대로 $0.00입니다! 입력 토큰이 무료라고요? 128K 컨텍스트 (Context)에 대해서 말이죠? 정말 엄청납니다. 저는 엄청난 양의 텍스트를 밀어 넣어야 하는 긴 문서를 처리할 때 이 모델을 사용합니다.

ByteDance-Seed-OSS ($0.20/M) — 오픈 소스 (Open source), 128K 컨텍스트, 매우 저렴합니다. 비용 걱정 없이 실험을 진행하고 싶을 때 사용합니다.

Ga-Economy ($0.13/M) — 이것은 작업에 대해 가장 저렴한 옵션을 자동으로 선택하는 라우팅 모델 (Routing model)입니다. 프로토타이핑 (Prototyping) 중이라 어떤 모델을 사용할지 고민하고 싶지 않을 때 완벽합니다.

어떤 모델을 사용할지 결정하는 방법

저의 간단한 결정 트리 (Decision tree)는 다음과 같습니다:

단순한 테스트나 프로토타입인가? → Qwen3-8B 또는 GLM-4-9B ($0.01/M)
실제 앱이지만 중요도가 낮지는 않은가? → DeepSeek V4 Flash ($0.25/M)
복잡한 추론이 필요한가? → DeepSeek V4 Pro ($0.78/M)
단계별 사고가 필요한 작업인가? → DeepSeek-R1 ($2.50/M)
거대한 문서를 처리하고 있는가? → ERNIE-Speed-128K ($0.20/M, 입력 무료)
비전 (Vision) 또는 멀티모달 (Multimodal) 기능이 필요한가? → Qwen3-VL-32B ($0.52/M)

큰 교훈

솔직히 말해서, 제가 배운 가장 큰 사실은 멋진 것을 만들기 위해 큰돈을 쓸 필요가 없다는 점입니다. 이번 심층 분석을 하기 전에는 유용한 무언가를 만들려면 GPT-4나 Claude가 반드시 필요하다고 생각했습니다. 하지만 이제는 잘 알고 있습니다.

제 부트캠프 프로젝트(코드 리뷰 어시스턴트)는 DeepSeek V4 Flash를 기반으로 작동하며, 코드 리뷰 한 건당 약 $0.02의 비용이 듭니다. 리뷰 1,000건을 수행한다면? 단돈 $20입니다. GPT-4o를 사용했다면 $800가 들었을 것입니다. 품질은 동일하지만, 비용은 아주 일부분에 불과합니다.

직접 시도해보고 싶으신가요?

진심으로, 먼저 $0.01짜리 모델들을 가지고 놀아보세요. 그 모델들이 해낼 수 있는 능력에 깜짝 놀랄 것입니다. 저도 그랬으니까요.

모든 가격 데이터는 Global API 플랫폼을 통해 2026년 5월 기준으로 검증되었습니다. 가격은 변동될 수 있으나, 확인 당시 제가 찾은 수치는 다음과 같습니다.

AI API 가격 비교: 184개 모델의 정면 승부 — 부트캠프 졸업생으로서 배운 점

요약

핵심 포인트