2026년, 폐쇄적인 생태계를 벗어나 더 가벼운 LLM 스택을 구축한 방법
요약
높은 API 비용 문제를 해결하기 위해 GPT-4o 중심의 폐쇄적 스택에서 벗어나, DeepSeek V4 Flash 및 Pro 등 가성비 높은 모델로 LLM 스택을 재구축한 사례를 공유합니다. 특정 벤더에 종속되지 않고 비용 효율성과 모델 선택의 자유를 확보하는 전략을 다룹니다.
핵심 포인트
- GPT-4o 대비 최대 11배 저렴한 모델 활용으로 비용 절감
- DeepSeek V4 Flash를 활용한 일반 작업(요약, 분류) 최적화
- 고성능이 필요한 작업에는 DeepSeek V4 Pro로 대체 가능
- 특정 벤더 종속성을 탈피하여 모델 교체 유연성 확보
솔직히 말씀드리겠습니다. 저는 API 가격에 관한 글을 쓰려고 마음먹었던 것이 아닙니다. 제가 실제로 하고 싶었던 것은 더 이상 바가지를 쓰지 않는 것이었습니다. 새로운 기능을 출시할 때마다 LLM 청구서가 눈덩이처럼 불어나는 것을 몇 달간 지켜본 끝에, 마침내 스프레드시트를 펼쳐 숫자를 나란히 비교했고, 6개월 전에는 들어본 적도 없던 모델들을 중심으로 전체 스택을 재구축했습니다. 다음 내용은 그 재구축 과정에 대한 이야기이며, 왜 2026년의 대부분의 개발자들이 필요 이상으로 2~3배 더 많은 비용을 지불하고 있다고 생각하는지에 대한 이유입니다.
이 글은 근본적으로 자유에 관한 글입니다. 애플리케이션을 다시 작성하지 않고도 제공업체를 교체할 수 있는 자유. 가중치 (weights)를 실제로 검사할 수 있는 모델을 사용할 수 있는 자유. 하룻밤 사이에 가격을 세 배로 올리기로 결정한 어떤 벤더 (vendor)로부터도 떠날 수 있는 자유 말입니다. 만약 이런 것들이 당신에게 중요한 일처럼 들린다면, 계속 읽어주세요.
내가 내 지능을 임대하고 있다는 사실을 깨달은 순간
시작은 Slack 알림이었습니다. 이번 달 우리의 GPT-4o 사용량이 제가 감당하기 어려운 임계치를 넘어섰고, 토큰 (token)당 계산 결과가 터무니없어 보이기 시작했습니다. 저는 입력 토큰 100만 개당 2.50달러, 출력 토큰 100만 개당 무려 10.00달러를 지불하고 있었습니다. 채팅 중심의 제품을 출시하는 소규모 팀에게 이러한 수치는 "컨텍스트 윈도우 (context window)"라고 말하기도 전에 빠르게 불어납니다.
그래서 저는 고집 센 개발자라면 누구나 할 법한 일을 했습니다. 여기저기 파헤치기 시작한 것이죠. 그리고 제가 발견한 것은 진심으로 저를 놀라게 했습니다.
OpenAI와 호환되는 게이트웨이인 Global API를 통해 저는 184개의 서로 다른 모델에 접근할 수 있었습니다. 그 카탈로그의 가격 범위는 어떠했을까요? 토큰 가격은 낮은 쪽은 100만 개당 0.01달러부터 시작하여 높은 쪽은 100만 개당 3.50달러로 끝났습니다. 오타가 아닙니다. 플랫폼에서 가장 비싼 모델이 제가 GPT-4o 출력에 지불하던 비용의 약 3분의 1 수준입니다.
다시 한번 말씀드리겠습니다. 이 말이 실감 나도록 하기 위해서입니다. 이 카탈로그에서 가장 비싼 모델이 제가 사용하던 모델의 가장 저렴한 등급보다 더 저렴합니다.
내 생각을 바꾼 모델들
제 새로운 스택의 중추가 된 다섯 가지 모델을 소개해 드리고자 합니다. 이들은 이론적인 선택지가 아닙니다. 저는 현재 이 모델들을 프로덕션 (Production) 환경에서 실행하고 있으며, 제가 잠든 사이에도 조용히 제 역할을 수행하고 있습니다.
DeepSeek V4 Flash는 대부분의 작업에 사용하는 기본 모델입니다. 100만 입력 토큰당 $0.27, 100만 출력 토큰당 $1.10의 가격에 128K 컨텍스트 윈도우 (Context window)를 갖춘 이 모델은 분류 (Classification), 요약 (Summarization), 그리고 단문 생성 (Short-form generation) 워크로드의 대부분을 처리합니다. 품질은 매우 뛰어납니다. 모든 벤치마크에서 GPT-4o와 대등하다고 거짓말하지는 않겠습니다. 하지만 제가 출시하는 작업의 90%에 대해서는 차이를 느낄 수 없을 정도이며, 출력 토큰당 비용은 대략 11배나 저렴합니다.
DeepSeek V4 Pro는 작업이 실제로 높은 성능을 요구할 때 찾는 모델입니다. 긴 컨텍스트 추론 (Long-context reasoning), 다단계 계획 (Multi-step planning), 그리고 실제로 작동해야 하는 코드 생성 (Code generation) 등이 이에 해당합니다. 200K 컨텍스트 윈도우를 제공하며 입력 $0.55, 출력 $2.20의 가격으로, 여전히 폐쇄형 (Proprietary) 대안 모델들의 비용 중 극히 일부에 불과합니다. 벤치마크 성능도 강력하지만, 더 중요한 점은 가중치 (Weights)가 허용적인 라이선스로 제공된다는 것입니다. 저에게는 그 부분이 핵심입니다.
Qwen3-32B는 저를 놀라게 했습니다. 일반적인 오픈 웨이트 (Open-weights) 모델을 예상했으나, 진정으로 경쟁력 있는 모델을 만났습니다. 입력 $0.30, 출력 $1.20, 32K 컨텍스트를 제공합니다. 세계에서 가장 긴 컨텍스트 윈도우는 아니지만, 32K 안에 들어오는 모든 작업에 있어서는 일꾼 역할을 톡톡히 해냅니다. Apache 2.0 라이선스이므로, 제가 직접 파인튜닝 (Fine-tune)을 하거나 자체 인프라에 배포할 수 있으며, 벤더가 갑자기 지원을 중단할까 봐 걱정할 필요도 없습니다.
GLM-4 Plus는 비용에 민감한 워크로드를 위한 저의 비밀 병기입니다. 128K 컨텍스트에 입력 $0.20, 출력 $0.80의 가격으로, 체급 이상의 성능을 보여줍니다. 수천 개의 문서에서 구조화된 데이터 (Structured data)를 추출하거나, 더 큰 모델로 넘기기 전에 저렴한 분류 (Classification) 단계를 거치는 것과 같은 대량 처리 (Bulk processing)가 필요할 때 저는 이 모델을 호출합니다.
그리고 GPT-4o가 있습니다. 저는 품질 차이(quality delta)가 실제로 존재하고 측정 가능한 소수의 예외적인 사례(edge cases)를 위해 여전히 이 모델을 사용하고 있습니다. 입력 $2.50, 출력 $10.00, 128K 컨텍스트(context)입니다. 저는 이 모델을 보이콧하는 것이 아닙니다. 단지 언제 프리미엄 비용을 지불할 가치가 있는지에 대해 솔직하게 말하는 것뿐입니다. 대부분의 팀에게 그 답은 "여러분이 생각하는 것보다 더 적은 빈도"일 것입니다.
내가 폐쇄적 생태계(Walled Gardens)를 회의적으로 보는 이유
많은 개발자가 과소평가하고 있다고 생각되는 폐쇄형 소스(closed source) 모델에 관한 사실이 하나 있습니다. 여러분은 소프트웨어를 사는 것이 아니라, 의존성(dependency)을 빌리고 있는 것입니다. 폐쇄형 API를 호출하는 모든 코드 한 줄은, 해당 벤더가 내일도 그 자리에 있을 것이며, 여러분이 감당할 수 있는 가격과 수용 가능한 약관을 유지할 것이라는 데 거는 도박입니다.
저는 이 영화를 전에도 본 적이 있습니다. 기업들이 피벗(pivot)하고, 인수되고, 가격 계층을 변경하고, 6개월 전 통보 후 모델을 지원 중단(deprecate)하며, 정당한 사용 사례를 망가뜨리는 방식으로 서비스 약관을 강화하는 것을 보았습니다. 여러분의 제품 전체가 단일 제공자의 API에 의존한다면, 여러분은 제품을 가진 것이 아니라 인질 상황에 처한 것입니다.
이것이 바로 저는 개발자가 자신의 전체 스택이 단일 벤더의 폐쇄형 소스 API로 구동된다고 자랑스럽게 발표할 때마다 조용히 분노하는 이유입니다. 여러분은 해자(moat)를 구축하고 있는 것이 아닙니다. 여러분은 우리(cage)를 만들고 있는 것입니다. 그리고 그 벽은 타인의 가격 페이지로 만들어져 있습니다.
오픈 소스(open source) 생태계 — 네, 저는 실제로 다운로드하고, 검사하고, 직접 실행할 수 있는 Apache 2.0 및 MIT 라이선스를 가진 모델들을 말하고 있습니다 — 가 유일하게 지속 가능한 전진 경로입니다. 이는 오늘날 오픈 소스 모델이 모든 차원에서 폐쇄형 모델보다 마법처럼 더 뛰어나기 때문이 아니라, 그 궤적이 명확하며 자유는 타협할 수 없는 것이기 때문입니다.
실제로 실행되는 코드
제 프로덕션(production) 설정이 어떻게 구성되어 있는지 보여드리겠습니다. OpenAI 호환 게이트웨이(gateway)의 아름다운 점은 모델을 전환하는 것이 단 한 줄의 변경으로 가능하다는 것입니다. 제가 범용 진입점(universal entry point)으로 사용하는 Python 코드입니다:
import openai
import os
...
그게 전부입니다. 통합 과정은 이것이 끝입니다. Global API가 OpenAI 프로토콜을 사용하기 때문에, 새로운 SDK를 배울 필요도, 요청 형태 (request shapes)를 다시 작성할 필요도, 혹은 기괴한 커스텀 인증 체계를 다룰 필요도 없었습니다. 공식 OpenAI Python 클라이언트를 다른 베이스 URL (base URL)로 지정하고, 환경 변수 (environment variable)를 교체하기만 하면 바로 시작할 수 있었습니다.
더 복잡한 워크플로 (workflows)를 위해, 저는 약간의 라우팅 로직 (routing logic)을 수행합니다. 즉, 쉬운 쿼리 (queries)는 더 저렴한 모델로 보내고, 어려운 문제에는 비싼 모델을 예약해 두는 방식입니다. 실제 적용 사례를 단순화하면 다음과 같습니다:
import openai
import os
...
이러한 종류의 코드는 벤더 종속 (vendor lock-in)에 대한 해독제입니다. 저는 내일이라도 당장 저 모델 문자열 중 어떤 것이든 교체할 수 있고, 다른 제공업체를 지정하거나, 원한다면 모델을 로컬에서 실행할 수도 있습니다. 제가 맺고 있는 유일한 계약은 OpenAI API 스펙 (spec)뿐이며, 이 스펙 자체는 기여자 커뮤니티에 의해 유지 관리되는 개방형 표준 (open standard)입니다. 이것이 올바른 방향이라고 느껴집니다.
실제로 중요한 수치들
솔직한 계산 결과를 말씀드리겠습니다. 저의 프로덕션 워크로드 (production workloads) 전반에 걸쳐, 단일 벤더의 폐쇄형 소스 설정에서 Global API를 통한 멀티 모델 오픈 웨이트 (open-weights) 친화적 스택으로 전환한 결과, 월별로 차이는 있지만 비용을 40%에서 65% 사이로 절감했습니다. 이러한 변동성은 쿼리의 구성에 따라 발생합니다. 복잡한 추론 (reasoning) 작업이 많은 달에는 가장 비싼 티어 (tier)를 완전히 피할 수 있기 때문에 더 큰 절감 효과를 보게 됩니다.
지연 시간 (Latency)은 문제가 되지 않았습니다. 첫 번째 토큰까지 평균 1.2초, 지속적인 처리량 (throughput)은 초당 약 320 토큰 정도를 기록하고 있습니다. 사용자 대상 채팅 제품으로서 이는 "빠르다고 느껴지는" 범주 안에 충분히 들어옵니다. 오히려 멀티 모델 설정은 체감 성능을 향상시켰는데, 이는 간단한 쿼리를 거의 즉각적으로 응답하는 더 빠르고 저렴한 모델로 라우팅하기 때문입니다.
품질 측면에서, 제가 사용 중인 모델들의 평균 벤치마크 점수는 84.6%에 달합니다. 이 수치는 MMLU, HumanEval 등 흔히 쓰이는 일련의 표준 평가(evals)를 통해 계산되었습니다. 참고로, 이전에 사용하던 폐쇄형 모델(proprietary model)은 동일한 평가 세트에서 80% 후반대의 점수를 기록했습니다. 격차는 분명히 존재하지만 미미한 수준이며, 비용 차이는 엄청납니다.
복리로 쌓이는 습관들
모델을 교체하는 것이 핵심적인 변화라면, 실제 절감 효과는 그 주변에 구축한 지루한 운영 습관에서 나옵니다. 제가 매주 실천하며 비용을 합리적으로 유지하는 다섯 가지 방법은 다음과 같습니다.
공격적으로 캐싱(cache)합니다. 두 번 이상 동일하게 답변될 수 있는 모든 것은 저장합니다. 40%의 캐시 히트율(cache hit rate)은 토큰 비용의 40% 직접적인 감소로 이어집니다. Redis든 SQLite든 상관없습니다. 그저 캐싱하십시오.
응답을 스트리밍(stream)합니다. 이는 단순히 더 나은 사용자 경험(UX)을 제공할 뿐만 아니라(사용자는 텍스트가 점진적으로 나타날 때 이를 인지합니다), 사용자가 필요한 정보를 이미 얻었다면 생성을 조기에 중단할 수 있음을 의미합니다. 체감 지연 시간(latency)은 낮아지고, 실제 비용도 낮아집니다.
단순한 작업에는 저렴한 모델을 사용합니다. 입력 $0.20, 출력 $0.80인 GLM-4 Plus는 제 트래픽의 놀라울 정도로 많은 양을 처리합니다. 깊은 추론(reasoning)이 필요하지 않은 모든 것은 우선적으로 이 모델로 보냅니다. 이전의 기본 모델과 비교했을 때, 단순 분류 및 추출 작업에서 50%의 비용 절감을 확인했습니다.
프로덕션 환경에서 품질을 모니터링합니다. 토큰 비용은 측정하기 쉽지만, 사용자 만족도는 측정하기 어렵습니다. 저는 제 스택에 있는 모든 모델에 대해 '좋아요(thumbs-up)' 비율, 작업 완료율, 그리고 명시적인 피드백 점수를 추적합니다. 저렴한 모델의 성능이 저하되기 시작하면, 사용자가 저에게 말하기 전에 미리 알고 싶습니다.
폴백(fallback) 로직을 구현합니다. 속도 제한(rate limits), 일시적인 오류, 간헐적인 서비스 중단은 발생하기 마련입니다. 저는 필요에 따라 저렴한 모델에서 비싼 모델로 단계적으로 격상되는 계층형 폴백 구조를 갖추고 있으며, 모든 옵션이 소진되었을 때는 우아하게 성능을 낮추는(degrade gracefully) 방식을 취합니다. 인프라에 문제가 생기더라도 사용자 경험은 매끄럽게 유지됩니다.
더 큰 그림
더 큰 그림
이 글을 통해 여러분이 단 한 가지만이라도 얻어갈 수 있다면, 그것은 바로 이것이었으면 합니다. 2026년의 AI API 시장은 2년 전과는 다릅니다. 폐쇄형 소스 (closed-source) 기존 기업들은 여전히 훌륭하며, 그들을 사용하는 데에는 타당한 이유가 있습니다. 하지만 오픈 웨이트 (open-weights) 생태계는 비약적으로 성숙했고, 모델 라우팅 (model routing) 관련 툴링 (tooling)은 진정으로 좋아졌으며, 독점 모델과 오픈 모델 사이의 가격 차이 (price arbitrage)는 작은 팀 하나를 운영할 수 있을 정도로 충분히 벌어져 있습니다.
이에 대해 광신도가 될 필요는 없습니다. 저 또한 그렇지 않습니다. 저는 품질 차이가 측정 가능하고 비용을 지불할 가치가 있는 소수의 워크로드 (workload)에는 여전히 GPT-4o를 사용합니다. 하지만 기본값은 개방성(openness)이어야 합니다. 기본값은 자유여야 합니다. 검사하고, 수정하고, 배포하고, 언제든 떠날 수 있는 자유가 기본값이 되어야 합니다.
제가 Global API를 통해 실행하는 Apache 2.0 및 MIT 라이선스 모델들은 단순히 더 저렴한 것만이 아니라, 하나의 선언입니다. 이는 빌린 땅(rented land) 위에 비즈니스를 구축하기를 거부한다는 선언입니다. 그리고 경쟁력 있는 벤치마크 (benchmarks)와 함께 새로운 오픈 웨이트 (open-weights) 모델이 출시되는 것을 볼 때마다, 저는 이것이 미래의 방향(where the puck is going)이라는 확신을 조금씩 더 갖게 됩니다.
우리가 커피를 마시고 있다면 제가 해줄 말
작게 시작하세요. 청구서에서 불균형적으로 많은 비중을 차지하는 워크로드 하나를 골라 더 저렴한 모델로 라우팅 (routing)해 보세요. 아무것도 다시 작성할 필요가 없도록 https://global-apis.com/v1에 있는 OpenAI 호환 베이스 URL (OpenAI-compatible base URL)을 사용하세요. 품질을 측정하고, 비용을 측정하여 직접 확인해 보십시오.
Global API를 통해 사용할 수 있는 184개의 모델은 제가 생각할 수 있는 거의 모든 유스케이스 (use case)를 커버합니다. 만약 $0.20/M 입력 모델이 처리할 수 있는 작업에 GPT-4o 가격을 지불하고 있다면, 여러분은 돈을 길바닥에 버리고 있는 것입니다. 아마도 아주 많은 돈을 말이죠.
카탈로그를 탐색하고 직접 실험을 해보고 싶다면, Global API는 시작을 위한 100개의 무료 크레딧을 제공합니다. 이는 수십 개의 모델을 테스트하고 여러분의 워크로드에 맞는 적절한 조합을 찾기에 충분한 양입니다. 원하신다면 global-apis.com에서 확인해 보세요. 강요는 아니며, 그저 알아둘 만한 선택지일 뿐입니다.
AI 인프라의 미래는 개방적이고, 조합 가능하며(composable), 저렴합니다. 유일한 질문은 당신이 그 토대 위에서 무언가를 구축하는 사람이 될 것인지, 아니면 여전히 폐쇄적인 생태계(walled garden)에 임대료를 지불하는 사람이 될 것인지입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기