이 API 해킹 기술을 더 빨리 알았더라면 — 상세 분석

자, 제 프로젝트에 AI 기능을 구축하는 방식에 대한 생각을 완전히 바꿔놓은 것에 대해 말씀드려야겠습니다. 저는 불과 몇 달 전에 코딩 부트캠프 (coding bootcamp)를 마쳤고, 대부분의 졸업생처럼 제가 배운 기술로 실제로 어떻게 돈을 벌 수 있을지 고민하며 사이드 프로젝트를 만들고 있었습니다. 코드에서 아주 작은 교체 하나가 엄청난 양의 돈을 아껴주고, 솔직히 제 앱을 훨씬 더 잘 작동하게 만들 줄은 꿈에도 몰랐습니다.

잠시 되돌아가 보겠습니다. 저는 친구의 작은 이커머스 (e-commerce) 사이트를 위한 챗봇을 만들고 있었습니다. 대단한 것은 아니었고, 제품에 대한 기본적인 질문에 답할 수 있는 정도였습니다. 저는 모든 부트캠프에서 가장 먼저 가르치는 방식인 OpenAI SDK를 사용했습니다. 키를 삽입하고, 모델을 선택하고, 메시지를 보내고, 응답을 받으면 됩니다. 쉬웠죠. 하지만 이 서비스가 실제로 사용될 경우 비용이 얼마나 들지 계산해 보기 시작했고, 약간 패닉에 빠졌습니다. API 호출 (API calls) 비용이 그렇게 빨리 쌓일 줄은 전혀 몰랐거든요.

제가 사용하던 모델은 GPT-4o였는데, 이는 입력 토큰 (input tokens) 100만 개당 2.50달러, 출력 토큰 (output tokens) 100만 개당 10.00달러의 비용이 듭니다. 이 수치들이 작게 들릴 수도 있다는 것을 알지만, 문제는 이겁니다. 실제 사용자가 긴 질문을 입력하고 봇이 긴 답변을 작성하면, 그것은 정말 빠르게 실제 비용으로 쌓이게 됩니다. 저는 새벽 2시에 간단한 계산을 해보았고, 기본적으로 서비스를 출시하기도 전에 파산할 것이라는 결론을 내렸습니다.

실제로 무엇이 있는지 발견한 순간

그래서 저는 밤 11시쯤 (다들 그렇듯) 개발자 트위터 (dev Twitter)를 의미 없이 스크롤하고 있었는데, 많은 팀이 조용히 유명한 API들을 떠나 솔직히 성능이 그만큼 좋은 더 저렴한 대안들로 옮겨갔다는 스레드를 보게 되었습니다. 충격적이었습니다. 이런 일이 일어나고 있다는 것을 정말 전혀 몰랐습니다. 부트캠프에서는 OpenAI 방식을 가르치고 그것이 전부입니다. GPT-4o 비용의 아주 일부분만 드는 모델들의 거대한 세계가 외부에 존재한다는 사실을 아무도 언급하지 않았습니다.

모두가 이야기하던 모델은 DeepSeek였습니다. 구체적으로는 DeepSeek V4 Flash와 DeepSeek V4 Pro였죠. DeepSeek에 대해 막연하게 들어본 적은 있었지만, 성능이 그리 좋지 않은 어떤 틈새 모델일 것이라고 짐작했습니다. 제 생각이 완전히 틀렸습니다. 몇 개의 블로그 포스트를 읽어보니, 벤치마크 (benchmarks) 결과가 대부분의 작업에서 비싼 모델들과 거의 대등했습니다. 단돈 몇 푼으로 실행할 수 있는 모델이 엄청난 비용을 지불하며 사용하는 모델과 거의 동일한 성능을 보여준다는 사실에 정말 깜짝 놀랐습니다.

결국 제가 결단을 내리게 만든 가격 비교는 다음과 같았습니다. 이것이 개발자로서 제 삶을 진정으로 바꾸어 놓았기에 공유하고 싶습니다.

모델 (Model)	입력 (백만 토큰당)	출력 (백만 토큰당)	컨텍스트 윈도우 (Context Window)
DeepSeek V4 Flash	0.27	1.10	128K
...

이 숫자들을 보세요. 저는 휴대폰을 내려놓아야만 했습니다. DeepSeek V4 Flash는 출력 토큰 (output tokens) 기준으로 GPT-4o보다 말 그대로 90%나 저렴합니다. 90%입니다. 오타가 아닙니다. 동일한 작업에 대해서 말이죠. 저는 전환할 수 있다는 사실을 깨닫기도 전에 그동안 제가 얼마나 많은 돈을 쓰고 있었는지 암산하고 있었습니다.

제가 깊이 파고들기 전까지 제대로 인지하지 못했던 또 다른 점은 컨텍스트 윈도우 (context window)였습니다. DeepSeek V4 Pro는 200K의 컨텍스트 윈도우를 가지고 있는데, 이는 GPT-4o의 128K보다 더 큽니다. 저는 대화 기록을 기억해야 하는 챗봇 (chatbot)을 만들고 있었는데, 더 큰 윈도우는 대화가 무너지기 전까지 훨씬 더 긴 대화를 나눌 수 있음을 의미했습니다. 저는 이것이 제가 주의를 기울여야 할 요소라는 것조차 전혀 몰랐습니다. 부트캠프 (bootcamp)에서는 토큰 (tokens)에 대해서는 가르쳐 주지만, 컨텍스트 윈도우가 무엇을 만들 수 있는지에 어떻게 영향을 미치는지에 대해서는 제대로 가르쳐 주지 않습니다.

제가 실제로 전환한 방법 (약 8분 정도 걸렸습니다)

여기서 정말 저를 놀라게 한 부분이 있습니다. 저는 전환한다는 것이 제 코드의 엄청난 양을 다시 작성해야 한다는 의미라고 가정했습니다. 새로운 SDK, 새로운 인증 (authentication), 새로운 에러 핸들링 (error handling) 등 모든 것을 새로 배워야 한다는 심리적 이미지를 가지고 있었습니다. 이미 지쳐 있는 상태였죠. 하지만 Global API에 대해 알게 되었고, 알고 보니 기본적으로 단 한 줄의 코드 변경만으로 가능했습니다.

Global API는 수많은 서로 다른 모델에 접근할 수 있는 단 하나의 엔드포인트(endpoint)를 제공하는 서비스입니다. 현재 184개의 AI 모델을 사용할 수 있으며, 가격은 100만 토큰당 $0.01에서 $3.50 사이입니다. 제가 이토록 열광했던 이유는 수많은 서로 다른 SDK를 배울 필요가 없었기 때문입니다. 그저 하나의 URL을 지정하고 모델 이름만 전달하면 됩니다. 그게 전부입니다.

전환 후 제 코드는 다음과 같았습니다. 저는 말 그대로 베이스 URL(base URL)과 모델 이름만 바꿨습니다. 나머지 코드는 전혀 바뀌지 않았습니다:

import openai
import os

...

그게 끝입니다. 그것이 변경 사항의 전부입니다. 이렇게 간단할 줄은 꿈에도 몰랐습니다. 만약 이전에 OpenAI SDK를 사용해 보셨다면, 이 코드는 거의 동일해 보일 것입니다. 유일한 차이점은 Global API를 가리키는 base_url과 모델 문자열뿐입니다. 그 외의 모든 것 — 채팅 완성(chat completions), 스트리밍(streaming), 시스템 메시지(system messages) 등 모든 것이 정확히 동일한 방식으로 작동합니다.

이 코드를 처음 실행하고 DeepSeek V4 Flash로부터 응답을 받았을 때, 저는 아무도 없는 곳에서

두 번째는 품질이었습니다. 저는 제가 봇을 만들어주고 있는 친구를 대상으로 벤치마크 (benchmark)를 실행했습니다. 더 저렴한 모델이 저를 당황하게 만들지 않을지 확인하기 위해서였죠. 그녀에게 응답을 1점에서 5점 사이의 척도로 평가하게 했고, 평균 84.6%를 얻었습니다. 참고로, 동일한 테스트에서 GPT-4o는 약 87%를 기록했습니다. 그 차이는 일반 사용자가 전혀 눈치채지 못할 정도로 미미했지만, 비용 차이는 엄청났습니다. GPT-4o 버전을 사용할 때와 비교했을 때 매달 API 청구 금액의 40~65%를 절약하고 있었습니다. 처음 비교했을 때는 계산이 맞는지 세 번이나 다시 확인해야 했습니다.

세 번째로 깨달은 점은 실제로 작업마다 서로 다른 모델을 선택할 수 있다는 것이었습니다. 저는 단순한 고객 서비스 업무에는 DeepSeek V4 Flash를 사용하고, 더 긴 컨텍스트 (context)나 더 복잡한 추론 (reasoning)이 필요한 질문이 들어올 때를 위해 더 큰 모델인 DeepSeek V4 Pro를 아껴두었습니다. 이런 방식의 라우팅 (routing)은 이전에는 한 번도 해볼 생각을 못 했던 것이었습니다. 부트캠프 (bootcamp)에서는 그냥 모델 하나를 골라 모든 것에 사용하니까요. 알고 보니 훨씬 더 스마트한 방법이 있었습니다.

누군가 나에게 더 빨리 말해줬더라면 좋았을 것들

이 설정을 운영하고 수많은 블로그 포스트를 읽으며 제가 참여 중인 디스코드 (Discord)의 다른 개발자들과 대화한 지 몇 주가 지난 후, 저는 진정으로 시간과 비용을 아껴준 베스트 프랙티스 (best practices) 목록을 만들었습니다. 솔직히 부트캠프에서는 아무도 이런 것을 가르쳐주지 않았고 저는 고생하며 직접 배워야 했기에, 이 내용들을 공유하고 싶습니다.

첫 번째는 캐싱 (caching)입니다. 응답을 캐싱함으로써 얼마나 많은 돈을 아낄 수 있는지 전혀 몰랐습니다. 누군가 "영업시간이 어떻게 되나요?"라고 묻는다면, 매번 API를 호출할 필요가 없습니다. 저는 일반적인 질문들에 대해 1시간의 TTL (Time To Live)을 가진 간단한 캐시를 설정했고, 현재 제 히트 레이트 (hit rate)는 약 40%입니다. 이는 요청의 40%가 캐시에서 제공되기 때문에 비용이 전혀 들지 않는다는 것을 의미합니다. 이것 하나만으로도 아마 제가 수행한 가장 큰 단일 최적화 (optimization)였을 것입니다.

두 번째는 스트리밍(streaming)입니다. 저는 원래 사용자에게 보여주기 전에 전체 응답이 돌아올 때까지 기다렸는데, 이 때문에 봇이 기술적으로는 빠르게 응답하고 있음에도 느리게 느껴졌습니다. 스트리밍을 활성화하자 모델이 생성하는 대로 단어들이 나타나기 시작했고, 갑자기 봇이 민첩하게(snappy) 느껴지기 시작했습니다. 실제 지연 시간(latency)은 변하지 않았지만, 체감 지연 시간이 크게 줄었습니다. 사용자들은 훨씬 빠르다고 생각했습니다.

세 번째는 가능하다면 더 저렴한 모델을 사용하는 것입니다. 저는 '예' 또는 '아니오' 유형의 간단한 질문이나 기본적인 분류 작업과 같은 매우 단순한 쿼리에 GA-Economy라는 모델을 사용합니다. 이 모델은 DeepSeek V4 Flash보다도 비용이 약 50% 적습니다. 많은 지능(smarts)이 필요하지 않은 작업에는 이것이 당연한 선택입니다. 저는 간단한 쿼리는 GA-Economy로, 복잡한 쿼리는 DeepSeek V4 Pro로 라우팅하여 요청당 평균 비용을 크게 낮췄습니다.

네 번째는 품질 모니터링(monitoring quality)입니다. 저는 비용에 너무 집중한 나머지, 봇이 실제로 좋은 답변을 제공하는지 확인하는 것을 거의 잊었습니다. 사용자들이 응답에 좋아요(thumbs up) 또는 싫어요(thumbs down)를 누를 수 있는 간단한 피드백 버튼을 설정하고 이를 기록합니다. 만약 제 품질 점수가 떨어지기 시작하면, 무언가 잘못되었다는 것을 알고 조사해야 합니다. 이것은 해본 후에 당연하게 느껴지는 것 중 하나이지만, 스스로 생각할 때는 절대 고려하지 않았던 부분입니다.

다섯 번째는 폴백 계획(fallback plan)을 갖추는 것입니다. API는 다운됩니다. 속도 제한(Rate limits)에 걸립니다. 문제가 발생합니다. 저는 백업 모델을 구성하여 DeepSeek V4 Flash가 컨디션이 좋지 않을 경우, 제 코드가 자동으로 DeepSeek V4 Pro를 시도하고, 그것마저 실패하면 완전히 다른 모델로 폴백(fallback)하도록 했습니다. 사용자는 전혀 알지 못합니다. 이것은 구현하는 재미있는 부분이 되었고 전체 시스템을 훨씬 더 안정적으로 만듭니다.

부트캠프가 실제로 가르쳐줬어야 할 것들

솔직히 말해서, 이 모든 경험을 통해 제가 얻은 가장 큰 깨달음은 부트캠프가 인기 있는 도구들을 사용하는 방법은 가르쳐주지만, 대안을 평가하는 방법은 가르쳐주지 않는다는 것입니다. 아무도 "이봐, 서로 다른 모델들의 비용을 비교해봐야 해"라거나 "하나의 엔드포인트(endpoint)를 통해 모든 모델에 접근할 수 있게 해주는 서비스가 있어"라고 말해주지 않았습니다. 저는 그것을 스스로 찾아내야 했고, 이것이 새로운 개발자들을 교육하는 방식에 있어 하나의 공백(gap)이라고 생각합니다.

만약 제가 시간을 되돌려 AI 관련 결과물을 만드는 법을 배우기 시작한 첫날의 저에게 조언을 해줄 수 있다면, 이렇게 말하겠습니다. 해결하고 싶은 문제를 정하고, 가장 쉬운 도구로 무엇이든 사용하여 그것을 만드세요. 그리고 일단 작동하기 시작하면, 주말을 할애하여 비용과 성능 환경(landscape)을 살펴보세요. 그냥 찾아보기만 해도 얼마나 많은 돈을 아낄 수 있고 성능이 얼마나 더 좋아질 수 있는지 알게 되면 놀랄 것입니다. 저는 인지하지 못한 채 예산의 약 60%를 낭비하고 있었습니다.

또한 누군가 저에게 하나의 모델에만 전념할 필요가 없다고 말해줬더라면 좋았을 것입니다. Global API와 같은 서비스의 핵심은 필요에 따라 모델을 교체(swap)할 수 있다는 점입니다. 만약 다음 달에 더 빠르거나 저렴한 새로운 모델이 나온다면, 저는 오후 한때 만에 그것으로 전환할 수 있습니다. 만약 제가 모든 것을 OpenAI API에 직접 구축했다면, 전환하는 과정은 훨씬 더 고통스러웠을 것입니다. Global API와 같은 추상화 계층(abstraction layer) 위에서 구축한 것이 미래의 많은 고통을 줄여주었습니다.

실제로 프로덕션에서 실행되는 코드

제 코드가 실제로 어떻게 생겼는지 더 완전한 버전을 공유하겠습니다. 저도 이런 것들을 배울 때 실제 예시를 보는 것을 좋아했기 때문입니다. 다음은 제 스트리밍 챗봇(streaming chatbot) 코드의 간략화된 버전입니다:

import openai
import os
from flask import Flask, request, Response, stream_with_context
...

이것은 몇 가지 작업을 수행합니다. 스트리밍 (streaming)을 사용하여 사용자가 응답이 생성되는 동안 실시간으로 볼 수 있게 합니다. 대부분의 작업에 대해 더 저렴하고 빠르기 때문에 먼저 DeepSeek V4 Flash를 시도합니다. 그리고 해당 모델에 문제가 발생하면 DeepSeek V4 Pro로 폴백 (fallback) 합니다. 하나의 제공업체에 문제가 생겼다고 해서 제 봇이 다운되지 않을 것이라는 사실을 알기에 밤에 더 편히 잠들 수 있습니다.

또한 Global API 설정에 10분도 채 걸리지 않았다는 점을 언급해야겠습니다. 가입하고, API 키를 발급받아 환경 변수 (environment variables)에 넣는 것이 전부였습니다. 이상한 승인 절차나 엔터프라이즈 계약을 기다리는 일 따위는 전혀 없었습니다. 예산이 없는 부트캠프 졸업생으로서 이는 매우 큰 장점이었습니다.

다른 초보 개발자들에게 해주고 싶은 말

이제 막 시작해서 LLM (대규모 언어 모델)으로 무언가를 만들고 있다면, 제 조언은 저렴한 모델들을 간과하지 말라는 것입니다. 들어본 적 있는 유명한 모델을 사용하고 싶은 유혹이 크다는 것을 알지만, 저렴한 옵션들도 대부분의 작업에서 충분히 훌륭한 경우가 많습니다. 제가 언급한 40~65%의 비용 절감은 이론적인 마케팅 문구가 아니라, 실제로 매달 제가 받는 청구서에서 확인하는 수치입니다. 그 돈을 호스팅이나 더 나은 데이터베이스에 투자하거나, 혹은 사이드 프로젝트가 가능성이 있는지 확인하는 동안 프로젝트를 더 오래 유지하는 데 사용할 수 있습니다.

또한 더 나은 도구가 나왔을 때 전환하는 것을 두려워하지 말라고 말하고 싶습니다. Global API와 같은 추상화 계층 (abstraction layer)을 사용하는 핵심 이유는 특정 서비스에 종속되지 않기 위해서입니다. 만약 내년에 훨씬 더 좋고 저렴한 새로운 모델이 나온다면, 앱 전체를 다시 작성할 필요 없이 바로 교체할 수 있습니다. 이는 개발자로서 매우 강력한 위치를 점하는 것이며, 저 또한 직접 전환을 해보기 전까지는 그 가치를 제대로 깨닫지 못했습니다.