부트캠프 졸업생의 Google vs OpenAI API 가격 비교 탐구

솔직히 말해서, 부트캠프 졸업생의 Google vs OpenAI API 가격 비교 탐구

3개월 전 코딩 부트캠프를 마쳤을 때, 저는 API가 무엇을 하는지 이해했다고 생각했습니다. 제 말은, 요청(request)을 보내면 응답(response)을 받는다는 것이죠, 맞죠? 제가 이해하지 못했던 것은 어떤 모델을 선택하느냐에 따라 비용이 얼마나 극적으로 달라질 수 있는지였습니다. 코드 한 줄을 바꾸는 것이 대규모 운영 시 단돈 몇 푼을 내는 것과 수백 달러를 내는 것 사이의 차이를 만들 수 있다는 사실을 전혀 몰랐습니다.

그것이 제가 지난주에 빠져들었던 미궁이었으며, 제가 배운 모든 것을 여러분께 안내해 드리고 싶습니다. 이 글은 제가 첫 API 크레딧 50달러를 다 써버리기 전에 읽었더라면 좋았을 글입니다.

애초에 왜 가격을 살펴보기 시작했는가

저는 사용자 리뷰를 가져와 요약하는 작은 앱을 만들고 있었습니다. 꽤 간단한 작업이었죠. 저는 그냥 가장 인기 있는 모델을 연결하고 끝내면 될 것이라고 생각했습니다. 뉴스를 주의 깊게 보셨다면 아시겠지만, 그 모델은 GPT-4o였습니다. 그래서 연결을 마친 뒤 몇 가지 테스트를 실행했고, 모든 것이 좋아 보였습니다.

그다음 계산을 해보았습니다.

GPT-4o는 입력(input) 100만 토큰(token)당 2.50달러, 출력(output) 100만 토큰당 10.00달러를 부과합니다. 저는 실제로 "100만 토큰"이 무엇을 의미하는지조차 몰랐습니다. 그래서 약 50개의 리뷰로 앱을 테스트했고 제 크레딧 잔액이 떨어지는 것을 지켜보았습니다. 재앙적인 수준은 아니었지만, 더 저렴한 방법이 있지 않을까 궁금해지기 시작할 정도였습니다.

실제 격차가 얼마나 큰지 알게 되었을 때 저는 충격을 받았습니다.

제 계획 전체를 바꿔놓은 가격표

저는 Global API라는 플랫폼을 우연히 발견했는데, 솔직히 그곳의 가격표는 제 정신을 쏙 빼놓았습니다. 그곳은 100만 토큰당 0.01달러에서 3.50달러에 이르는 가격대로 184개의 서로 다른 AI 모델에 대한 접근 권한을 제공합니다. 이를 GPT-4o의 출력 가격인 100만 토큰당 10.00달러와 비교해 보면, 왜 제가 초기 수치를 보고 약간 당황했는지 이해하기 시작할 것입니다.

다음은 제가 나란히 놓고 비교하게 된 다섯 가지 모델입니다:

모델 (Model)	입력 비용 (Input Cost)	출력 비용 (Output Cost)	컨텍스트 윈도우 (Context Window)
DeepSeek V4 Flash	$0.27	$1.10	128K
...

GLM-4 Plus를 보세요. 저 출력 수치를 보세요. 100만 토큰당 $0.80입니다. 이는 GPT-4o보다 12.5배나 저렴합니다. 제가 무언가 놓치고 있는 게 아닌가 싶어서 세 번이나 다시 읽어야 했습니다.

DeepSeek V4 Flash 역시 뒤처지지 않습니다. 입력 $0.27, 출력 $1.10로, GPT-4o 비용의 대략 10분의 1 수준입니다. 저처럼 이제 막 사이드 프로젝트 (side project)를 출시하려는 사람에게 이것은 엄청난 차이입니다.

컨텍스트 윈도우 (Context Window) 또한 중요하다는 것을 깨달은 순간

이번 주 전까지 저는 "컨텍스트 윈도우 (context window)"가 정확히 무엇인지 잘 몰랐습니다. 입력할 수 있는 텍스트의 양과 관련이 있다는 정도만 어렴풋이 알았을 뿐, 모델마다 이렇게 큰 차이가 나는 줄은 전혀 몰랐습니다.

컨텍스트 윈도우는 기본적으로 모델의 메모리 (memory)와 같습니다. 이 크기가 클수록 모델이 한 번에 더 많은 텍스트를 살펴볼 수 있습니다. DeepSeek V4 Pro는 200K의 컨텍스트를 지원하는데, 이는 엄청난 규모입니다. GPT-4o는 128K가 최대치입니다. Qwen3-32B는 32K에 불과한데, 이는 소설 한 권을 통째로 집어넣으려고 시도하기 전까지는 많게 느껴질 수 있는 수치입니다.

제 리뷰 요약기 (review summarizer)에는 32K로도 충분했습니다. 하지만 긴 문서를 처리하는 도구를 만드는 사람에게는 그 차이가 매우 중요합니다. 이 표들을 살펴보기 전까지는 이런 부분에 대해 생각해 본 적조차 없었습니다.

실제로 더 저렴한 모델들을 어떻게 연결했는가

저를 가장 놀라게 했던 부분은 교체 작업이 얼마나 쉬웠는가 하는 점이었습니다. 새로운 SDK를 배워야 하거나 앱의 절반을 다시 작성해야 할 줄 알았습니다. 하지만 아니었습니다.

제가 결국 사용하게 된 Python 코드입니다. Global API는 OpenAI 호환 인터페이스 (OpenAI-compatible interface)를 사용하기 때문에 OpenAI SDK와 형태가 동일합니다:

import openai
import os

...

그게 전부입니다. 베이스 URL (base URL) 하나를 바꾸고, 모델 이름 하나를 바꾸니 제 앱 전체가 다른 모델에서 돌아가고 있었습니다. 마치 일종의 치트 코드를 해제한 기분이었습니다. 요청을 보내는 완전히 새로운 방식을 배울 필요가 없었다는 사실은 정말 다행이었습니다. 저는 아직 Python에 익숙해지는 과정에 있기 때문입니다.

저는 실제로 응답을 비교하기 위해 동일한 세션에서 두 가지 서로 다른 모델을 테스트했습니다. 대략적인 모습은 다음과 같았습니다:

def get_summary(text, model_name):
    response = client.chat.completions.create(
        model=model_name,
...

그런 다음 두 결과를 출력하여 눈으로 직접 확인했습니다. 솔직히 말해서, 짧은 리뷰를 요약하는 작업에 있어서는 품질 차이를 느낄 수 없었습니다. 저의 사용 사례(use case)에서는 더 저렴한 모델이 명백한 선택지였습니다.

벤치마크 (Benchmarks)가 실제로 의미하는 것

기사들을 보다 보면 "평균 벤치마크 점수 84.6%"라거나 "초당 320 토큰(tokens per second)의 처리량(throughput)" 같은 문구들이 계속 등장하는데, 저는 그것들이 무엇을 의미하는지 전혀 알지 못했습니다. 누군가 저에게 설명해 주었으면 좋았을 방식으로 제가 한번 설명해 보겠습니다.

벤치마크 점수는 기본적으로 모델에 대한 시험 점수입니다. 모델에게 일련의 표준 문제들을 주고, 그중 몇 퍼센트를 맞혔는지를 나타냅니다. 따라서 84.6%는 대부분의 문제를 맞힌다는 뜻입니다. 이는 매우 훌륭하게 들리지만, GPT-4o와 많은 저렴한 모델들이 모두 비슷한 점수대에 머물러 있다는 사실을 기억하면 이야기가 달라집니다. 비싼 모델들이 제가 측정할 수 있는 어떤 방식에서도 극적으로 더 똑똑한 것은 아닙니다.

초당 토큰(tokens per second) 수는 모델이 응답을 얼마나 빨리 내뱉는지를 나타냅니다. 초당 320 토큰은 빠른 속도입니다. 이는 일반적인 한 단락이 약 1.5초 만에 돌아온다는 것을 의미합니다. 제가 읽고 있던 기사에서는 평균 지연 시간(latency)이 1.2초라고 했는데, 이는 해당 수치와 일치합니다.

핵심은, 대부분의 일상적인 작업에서 GPT-4o와 DeepSeek V4 Flash 또는 GLM-4 Plus 같은 모델 사이의 유의미한 품질 차이를 느끼지 못할 것이라는 점입니다. 하지만 청구서(bill)의 차이는 확실히 느끼게 될 것입니다.

저를 정말 깜짝 놀라게 만든 비용 절감 수치

제가 다시 한번 눈을 의심하게 만든 수치는 이것이었습니다: 대형 제공업체(big providers)를 직접 이용하는 것과 비교했을 때 40%에서 65%의 비용 절감. 이것은 마케팅 상술이 아닙니다. 출력 가격(output pricing)이 $10.00인 경우와 $1.10 또는 $0.80인 경우를 비교할 때 수학적으로 도출되는 결과입니다.

제 작은 사이드 프로젝트의 경우, 이는 한 달에 약 5달러를 쓰느냐 50달러를 쓰느냐의 차이였습니다. 어느 쪽이든 큰 문제는 아니죠. 하지만 기업 규모에서 동일한 수학적 계산을 적용하면, 한 달에 5,000달러를 쓰느냐 50,000달러를 쓰느냐의 차이가 됩니다. 이는 실제 연봉 수준의 금액입니다. 이 사실은 저를 조금 놀라게 했습니다.

비용을 더욱 절감해 준 베스트 프랙티스 (Best Practices)

기본적인 기능이 작동하기 시작한 후, 저는 비용을 더 낮출 수 있는 팁을 찾아 나섰습니다. 부트캠프 졸업생이라면 누구나 알아야 한다고 생각하는 다섯 가지 방법을 소개합니다.

공격적으로 캐싱 (Cache) 하세요. 요청의 40%가 반복되거나 거의 유사한 내용이라면, 모델에게 다시 묻는 대신 응답을 캐싱 (Caching) 함으로써 상당한 금액을 아낄 수 있습니다. 저는 제 앱을 위해 작은 딕셔너리(dictionary) 기반의 캐시를 구축했고, 즉시 API 호출 횟수가 줄어드는 것을 확인했습니다.
응답을 스트리밍 (Stream) 하세요. 전체 응답이 준비될 때까지 기다리는 대신, 사용자에게 단어 단위로 스트리밍하여 전달할 수 있습니다. 실제 생성 시간은 동일하더라도, 사용자가 체감하는 속도는 훨씬 더 빠르게 느껴집니다.
단순한 쿼리에는 더 저렴한 모델을 사용하세요. 깊은 추론 (Reasoning) 이 필요하지 않은 작업이라면 프리미엄 모델에 비용을 지불하지 마세요. Global API에는 정확히 이 목적을 위한 GA-Economy라는 기능이 있으며, 이를 통해 비용을 절반으로 줄일 수 있습니다.
품질을 모니터링 (Monitor) 하세요. 더 저렴한 모델로 전환했다고 해서 응답이 여전히 좋은지 주의를 기울이지 말라는 뜻은 아닙니다. 저는 사용자가 잘못된 요약을 신고할 수 있도록 앱에 간단한 '좋아요/싫어요 (thumbs-up/thumbs-down)' 시스템을 구축했습니다.
폴백 (Fallback)을 구현하세요. 속도 제한 (Rate limit)에 걸리거나 메인 모델이 다운될 경우를 대비해 우아한 백업 수단이 필요합니다. 저는 첫 번째 모델이 실패할 경우 다른 모델로 재시도하는 try-except 블록을 설정했습니다.

솔직히 설정 과정은 예상보다 더 빨랐습니다

가입부터 첫 번째 API 호출이 성공하기까지의 전체 설정 과정은 10분도 채 걸리지 않았습니다. 과장이 아닙니다. 인터페이스가 동일한 OpenAI 스타일의 채팅 완성 (chat completions) 형식이어서 새로운 라이브러리를 배울 필요가 없었습니다. 저는 그저 베이스 URL (base URL)을 변경하고, 키를 입력한 뒤, 모델을 지정하기만 하면 되었습니다.

만약 당신이 부트캠프 졸업생이거나 취미로 개발하는 사람이라면, 특정 제공업체에 종속되지 않고 다양한 모델을 실험해 볼 수 있는 가장 쉬운 방법이 바로 이것이라고 솔직히 말씀드리고 싶습니다. 코드를 다시 작성할 필요 없이 DeepSeek, Qwen, GLM, 그리고 GPT-4o 사이를 자유롭게 전환할 수 있습니다.

누군가 나에게 더 빨리 말해줬더라면 좋았을 한 가지

부트캠프 시작 단계에서 누군가 나에게 AI 모델을 선택하는 것이 단순히 가장 유명한 것을 고르는 문제가 아니라고 말해줬더라면 좋았을 것입니다. 가장 유명한 모델이 무려 10배(an order of magnitude)나 더 비쌀 수도 있기 때문입니다. 그리고 많은 일상적인 작업의 경우, 그 추가 비용을 지불하더라도 실제 품질 측면에서는 얻는 것이 거의 없습니다.

짧은 리뷰를 요약하는 것과 같은 작업에서, 100만 토큰당 0.80달러와 10.00달러의 차이가 성능만으로 정당화될 수 있다는 점은 전혀 예상하지 못했습니다. 산술적으로 계산이 맞지 않습니다.

이제 이 내용을 파헤치는 데 시간을 좀 쓰고 나니, 모델을 선택하는 데 훨씬 더 자신감이 생겼습니다. 컨텍스트 윈도우 (context window)가 무엇인지, 초당 토큰 수 (tokens per second)가 무엇을 의미하는지 알게 되었고, 위축되지 않고 벤치마크 점수를 읽는 법도 알게 되었습니다.

이 모든 과정을 거친 후 나의 결론

모든 테스트를 마친 후, 저는 대부분의 작업에는 DeepSeek V4 Flash를 기본값으로 사용하고, 훨씬 더 저렴한 출력이 필요할 때는 GLM-4 Plus를 사용하기로 결정했습니다. GPT-4o는 진정으로 최상위 수준의 추론 (reasoning)이 필요한 드문 경우를 위해 여전히 비상용으로 남겨두고 있습니다. 설정은 동일한 OpenAI SDK와 동일한 코드 구조를 사용하며, global-apis.com/v1 엔드포인트 (endpoint)를 통해 실행됩니다.

직접 시도해보고 싶다면 Global API를 확인해 보라고 말씀드리고 싶습니다. 그곳에는 184개의 모델이 있으며, 가격이 명확하게 나열되어 있고, 가입 시 실험을 시작할 수 있는 무료 크레딧을 받을 수 있습니다. 저는 모든 테스트를 진행하는 동안 약 0.10달러 상당의 크레딧을 소모했는데, 이는 동일한 호출에 대해 GPT-4o로 직접 연결하여 사용했을 때 지불했을 비용보다 훨씬 적은 금액입니다.

솔직히 말해서, 이 모든 과정은 모델들이 내부적으로 (under the hood) 어떻게 작동하는지에 대해 저를 훨씬 더 궁금하게 만들었습니다. 부트캠프에서 배운 다른 어떤 가정들을 의심해 봐야 할지 고민하기 시작했습니다. 하지만 그것은 다음 포스팅에서 다루도록 하겠습니다.