본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 17. 12:09

오픈 소스 LLM으로 AI 비용을 절반으로 줄인 방법

요약

SaaS 운영 시 발생하는 높은 GPT-4o API 비용을 절감하기 위해 오픈 소스 LLM을 활용하는 전략을 소개합니다. 특정 작업에는 고가의 프론티어 모델 대신 DeepSeek V4 Flash와 같은 저렴한 오픈 소스 모델을 사용함으로써 품질 저하 없이 비용을 획기적으로 줄일 수 있습니다.

핵심 포인트

  • 모든 작업에 고가의 프론티어 모델을 사용할 필요는 없음
  • 오픈 소스 모델을 활용해 API 비용을 최대 9배 이상 절감 가능
  • 요약 등 특정 태스크에서는 오픈 소스 모델의 성능이 충분히 검증됨
  • SaaS 운영 시 AI 추론 비용 관리가 핵심적인 비즈니스 요소임

솔직히 말씀드리자면, 6개월 전 저는 AI API 비용 때문에 돈을 엄청나게 쓰고 있었습니다. 정말로 Stripe 대시보드를 최악의 방식으로 보며 돈이 빠져나가는 것을 지켜봤죠. 제 작은 SaaS는 GPT-4o 호출에 매달 $800를 소모하고 있었는데, 솔직히 말해서? 그 호출들 대부분은 프론티어 모델(frontier model)일 필요도 없는 단순한 작업들이었습니다. 저는 식료품을 나르는 데 페라리 가격을 지불하는 격이었습니다.

그때 제가 오픈 소스 LLM의 세계로 빠져들게 되었습니다. 여기서 말하는 것은 3시에 Hetzner 서버에 불안정한 llama.cpp 설정을 직접 호스팅한다는 의미가 아닙니다. 저는 제대로 된 API를 통해 오픈 소스 모델을 사용하는 것을 의미합니다. 적절한 구성을 찾는 데 시간이 걸렸지만, 결국 Global API라는 곳을 찾게 되었고, 이곳은 184개의 다양한 모델에 접근할 수 있게 해줍니다. 네, 맞습니다. 184개요.

가격만 봐도 커피를 뿜을 뻔했습니다. 전체 카탈로그에서 백만 토큰당 $0.01에서 $3.50 수준입니다. 다시 말씀드리자면. 특정 모델의 경우 백만 토큰당 단돈 1센트로 지불할 수 있습니다. 제 이전 설정은 대부분의 작업에서 사실상 같은 품질이었음에도 불구하고, 훨씬 더 많은 비용을 발생시키고 있었습니다.

모든 것이 명확해진 순간

2026년에 SaaS를 시작하는 사람에게 아무도 말해주지 않는 것이 있습니다. 바로 AI 비용이 개발자 급여 다음으로 두 번째로 큰 지출 항목이 될 거라는 것입니다. 제가 만나는 거의 모든 창업가들이 같은 이야기를 합니다. 기능을 출시하고, 그것이 훌륭하게 작동하며 사용자들도 좋아합니다. 그리고 나서 청구서가 나타나면 그들은 '잠깐, 이게 뭐지?'라고 말하죠.

저도 그랬습니다. 저는 고객 지원 티켓을 요약하는 작은 AI 기반 도구를 만들었습니다. 아주 잘 작동했고, 고객들도 만족했습니다. 제 전환율도 견고했습니다. 그리고 청구서가 왔습니다. 알고 보니 GPT-4o를 사용해 2,000단어짜리 티켓을 요약하는 것이 월 5만 건씩 반복되면 엄청나게 쌓이는 것이었습니다.

수학적인 계산이 저에게 벽돌처럼 다가왔습니다. 저는 제 자신에게 지불하는 돈보다 추론(inference)에 더 많은 비용을 쓰고 있었습니다. 무언가가 바뀌어야 했습니다.

그래서 저는 합리적인 사람이라면 누구나 하는 행동을 했습니다. 오픈 소스 모델들이 실제로 프로덕션(production) 환경에서 실행될 만큼 충분히 좋아졌는지 알아내기 위해 Reddit, Discord 서버, 그리고 무작위 GitHub 저장소(repos)에서 부끄러울 정도로 많은 시간을 보냈습니다. 스포일러를 하자면, 그렇습니다. 정말로, 진심으로 좋아졌습니다.

제가 실제로 지불하는 비용 (실제 수치)

제가 매일 확인하는 가격 체계를 분석해 보겠습니다. 이 모델들은 작업에 따라 제가 번갈아 가며 사용하는 것들입니다. 별도의 언급이 없는 한, 가격은 100만 토큰(per million tokens)당 기준입니다.

모델입력 (Input)출력 (Output)컨텍스트 (Context)
DeepSeek V4 Flash$0.27$1.10128K
...

이 숫자들을 보세요. 그냥 한번 보세요. GPT-4o는 입력 $2.50, 출력 $10.00입니다. 100만 토큰당 말이죠. 반면 DeepSeek V4 Flash는 $0.27와 $1.10입니다. 출력 토큰 기준으로 9배 차이가 납니다. 그리고 결정적인 것은 — 제가 언급했던 요약(summarization) 작업의 경우, 사용자들을 대상으로 한 블라인드 테스트(blind tests)에서 품질 차이를 거의 감지할 수 없었다는 점입니다.

솔직히 말해서, 첫 번째 고객 지원 티켓(support tickets) 배치를 DeepSeek V4 Flash로 처리하고 GPT-4o만큼 95% 수준의 결과물을 얻은 순간, 왜 진작 이렇게 하지 않았는지 제 자신이 바보처럼 느껴졌습니다. 저는 몇 달 동안 기본적으로 아무런 이득 없이 돈을 불태우고 있었던 셈입니다.

저의 총 비용 절감액은요? 약 60% 정도입니다. 이는 이러한 모델들로 전환하면 40~65%를 절약할 수 있다는 일반적인 주장과 일치하며, 저의 경우 이전에는 자원을 너무 과하게 할당(over-provisioned)했었기 때문에 그 범위의 높은 쪽에 해당했습니다.

코드는 믿기지 않을 정도로 간단합니다

여기 아름다운 부분이 있습니다. OpenAI Python SDK가 현재 기본 표준이며, Global API도 정확히 동일한 인터페이스를 사용합니다. 따라서 마이그레이션(migration)은 말 그대로 코드 두 줄을 바꾸는 것이었습니다. 보여드리겠습니다.

import openai
import os

...

그게 전부입니다. 정말 이게 다예요. Base URL을 변경하고, 모델 이름(model name)을 교체하기만 하면 바로 시작할 수 있었습니다. 주요 엔드포인트(endpoints)를 마이그레이션하는 데 총 10분 정도 걸렸는데, 그 시간의 대부분은 품질이 여전히 유지되는지 확인하기 위해 병렬 테스트(parallel tests)를 수행하며 불안해하는 데 사용되었습니다.

조금 더 정교하게 구성하고 싶다면, 제가 서로 다른 작업에 대해 어떻게 다양한 모델 티어(model tiers)를 처리하는지 보여주는 약간 더 복잡한 예시가 여기 있습니다. 이것이 기본적으로 현재 제가 프로덕션(production) 환경에서 실행하고 있는 방식입니다.

import openai
import os
from typing import Literal
...

이것이 바로 저를 위기에서 구해준 실제 아키텍처 패턴(architecture pattern)입니다. 현재 제가 구축하는 거의 모든 AI 기능은 세 가지 티어로 나뉩니다. 분류(classification)나 추출(extraction) 같은 간단한 작업은 입력 100만 토큰당 $0.27인 DeepSeek V4 Flash로 보냅니다. 분석(analysis)이나 생성(generation) 같은 중간 정도의 복잡도를 가진 작업은 입력 100만 토큰당 $0.55인 DeepSeek V4 Pro로 보냅니다. 그리고 정말로 복잡한 추론(reasoning) 작업만이 입력 100만 토큰당 $2.50인 GPT-4o로 전달됩니다.

결과는 어땠을까요? 제 트래픽의 대부분은 저렴한 모델을 사용하고 있습니다. 실제로 비싼 모델이 필요한 요청은 아마 10~15% 정도일 것입니다. 제 청구 금액은 급격히 떨어졌습니다.

고생하며 배운 것들

좋습니다, 전환하는 것은 쉬운 부분이었습니다. 하지만 이것을 실제로 몇 달 동안 프로덕션에서 운영하면서 몇 가지를 배웠습니다. 저에게 진정으로 유의미한 변화를 가져다준 베스트 프랙티스(best practices)를 공유하겠습니다.

공격적으로 캐싱(Cache)하세요. 이 점은 아무리 강조해도 지나치지 않습니다. 저는 일반적인 프롬프트(prompts)를 위해 간단한 Redis 캐시를 구현했고, 히트율(hit rate)은 약 40%에서 안정화되었습니다. 40%입니다. 이는 제 API 호출의 40%가 더 이상... 발생하지 않는다는 것을 의미합니다. 만약 캐싱을 하지 않고 있다면, 당신은 말 그대로 돈을 길바닥에 버리고 있는 것입니다. 결과를 24시간 동안 저장하는 기본적인 캐시만 사용하더라도 엄청난 비용을 아낄 수 있습니다.

응답을 스트리밍(Stream)하세요. 이는 UX(사용자 경험) 측면의 요소에 가깝지만, 사용자가 지연 시간(Latency)을 인지하는 방식에도 영향을 미칩니다. 토큰이 생성되는 대로 스트리밍하여 반환하면, 체감 대기 시간이 극적으로 줄어듭니다. 제 응답의 p95 지연 시간은 약 1.2초 정도이지만, 사용자들이 화면에서 단어를 거의 즉시 보기 시작하기 때문에 즉각적이라고 느낀다고 보고합니다. 제가 확인한 처리량(Throughput)은 평균 초당 약 320 토큰 정도로, 대부분의 사용 사례에 충분히 빠른 속도입니다.

단순한 쿼리에는 저렴한 모델을 사용하세요. 기본 쿼리를 GA-Economy(카탈로그 내 저비용 옵션 중 하나)로 라우팅함으로써 비용을 추가로 50% 절감했습니다. 만약 당신의 작업이 "이 텍스트에서 이메일 주소를 추출하라"는 것이라면, GPT-4o는 절대 필요하지 않습니다. 식료품 배달을 위해 페라리 가격을 지불하고 있는 셈입니다. 그렇게 하지 마세요.

품질을 강박적으로 모니터링하세요. 저는 모델을 교체할 때마다 사용자 만족도 점수를 추적합니다. 요약 엔드포인트(Endpoint)를 GPT-4o에서 DeepSeek V4 Flash로 전환했을 때, 저는 몇 주 동안 편집증적인 불안을 느꼈습니다. 대시보드를 만들었고, 매일 확인했습니다. 광범위하게 A/B 테스트를 진행했습니다. 결과적으로 품질은 괜찮았지만, 측정하지 않았다면 그 사실을 알 수 없었을 것입니다. 단순히 저렴한 것이 충분히 좋다고 가정하지 마세요. 실제로 테스트하십시오.

폴백(Fallback) 계획을 세우세요. Global API는 안정적인 가동 시간(Uptime)을 제공하지만, 속도 제한(Rate limits)은 실재하는 문제입니다. 저는 모델을 사용할 수 없거나 속도 제한에 걸릴 경우, 앱이 자동으로 다른 모델로 재시도하는 우아한 성능 저하(Graceful degradation)를 구현했습니다. 사용자는 전혀 눈치채지 못합니다. 그저 응답을 받을 뿐입니다. 이를 구현하는 데는 한 시간 정도의 코드 작업이 필요했을 뿐이지만, 덕분에 셀 수 없이 많은 화난 고객의 이메일로부터 저를 구해냈습니다.

품질에 대한 솔직한 이야기

여러분이 무슨 생각을 하는지 압니다. "그래, 저렴하긴 한데, 정말로 그만큼 성능이 좋아?"라는 의문이죠. 타당한 질문입니다. 저의 솔직한 평가를 말씀드리겠습니다.

이 카테고리에 속하는 오픈 소스 모델들의 평균 벤치마크 (benchmark) 점수는 약 84.6%입니다. 이는 제가 임의로 만든 숫자가 아니라, 표준 평가 (standard evals)에 대한 종합적인 성능입니다. 참고로 GPT-4o가 당연히 더 높긴 하지만, 그 격차는 불과 1년 전보다 훨씬 줄어들었습니다. 그리고 실질적인 SaaS 사용 사례의 95%에 대해서는? 그 품질로도 충분하고도 남습니다.

저는 사용자들에게 요약본을 비교하게 하는 재미있는 실험을 진행했습니다. 한 세트는 GPT-4o가 생성했고, 다른 한 세트는 DeepSeek V4 Flash가 생성했습니다. 라벨이 없는 블라인드 테스트 (blind test)였습니다. 저는 '좋아요' 또는 '싫어요'로 응답했습니다. 선호도는 GPT-4o가 약 48%, DeepSeek가 47%, 무승부가 5% 정도였습니다. 통계적으로 의미 없는 차이입니다. 그리고 저는 그 1%의 선호도 우위를 위해 9배나 더 많은 비용을 지불하고 있었습니다. 사양하겠습니다.

그렇다고 제가 오픈 소스 모델이 항상 정답이라고 말하는 걸까요? 아닙니다. 만약 최첨단 연구 (cutting edge research), 복잡한 다단계 추론 (multi-step reasoning), 또는 반드시 최첨단 (state-of-the-art) 품질이 필요한 작업을 하고 있다면 여전히 GPT-4o를 원할 수도 있습니다. 하지만 세상에 존재하는 인디 해커 (indie hacker) 프로젝트의 90%에 대해서는? 오픈 소스 모델로도 충분히 역량이 됩니다. 솔직히 말씀드리면, 많은 팀이 여전히 습관적으로 과도한 비용을 지출하고 있다고 생각합니다.

저에게 효과가 있었던 몇 가지 구체적인 사용 사례

제가 현재 프로덕션 (production) 환경에서 실제로 운영 중인 몇 가지 사례를 말씀드리겠습니다. 가설적인 내용이 아니라, 매일 실제 사용자 데이터를 처리하는 실제 코드입니다.

첫 번째는 앞서 언급한 고객 지원 티켓 요약기 (support ticket summarizer)입니다. 이 도구는 들어오는 이메일을 받아 노이즈를 제거하고, 지원 팀에게 3문장 요약과 제안된 태그를 제공합니다. 이전에는 GPT-4o로 실행하여 티켓당 약 $0.0003의 비용이 들었습니다. 지금은 DeepSeek V4 Flash로 실행하며 티켓당 약 $0.00004의 비용이 듭니다. 한 달에 50,000건의 티켓을 처리한다고 가정해 봅시다. 계산은 직접 해보시기 바랍니다. (엄청난 금액이 절약됩니다.)

둘째로, 몇 개의 불렛 포인트(bullet points)로부터 제품 설명을 생성하는 기능이 있습니다. 사용자가 "무선 헤드폰, 블랙, 20시간 배터리"라고 입력하면 전체 마케팅 설명이 반환됩니다. 이 기능에는 Qwen3-32B를 사용하는데, 이 모델이 창의적이면서도 구조적인 글쓰기에 재능이 있기 때문입니다. 비용은 입력 토큰 100만 개당 0.30달러가 듭니다. 저는 절대 이전 방식으로 돌아가지 않을 것입니다.

셋째로, 고객 온보딩 (onboarding)을 위한 챗봇입니다. 이 기능은 응답이 자연스럽고 도움이 되는 느낌을 주어야 했기에 까다로웠습니다. 저는 이를 위해 GLM-4 Plus를 사용합니다. 입력 100만 토큰당 0.20달러, 출력 100만 토큰당 0.80달러로, 아주 훌륭한 절충안입니다. 대화형 작업에 충분히 똑똑하면서도, 프리미엄 모델들보다 훨씬 저렴합니다.

넷째, 그리고 이것은 여전히 GPT-4o를 사용 중인 유일한 기능인데, 바로 코드 리뷰 어시스턴트입니다. 이 기능은 최첨단 모델 (frontier model)의 추론 (reasoning) 능력으로부터 진정으로 이득을 얻습니다. 운영 환경 (production)에서 미묘한 버그를 잡아내는 가치는 제가 추론 (inference)에 추가로 지불하는 몇 달러보다 훨씬 크기 때문에, 그 비용은 충분한 가치가 있습니다.

주의해야 할 사항들

모든 과정이 순탄하기만 했던 것은 아닙니다. 여러분은 저와 같은 실수를 하지 않도록 몇 가지 주의사항 (gotchas)을 공유하겠습니다.

컨텍스트 윈도우 (context windows)가 서로 다릅니다. DeepSeek V4 Flash는 128K, V4 Pro는 200K, Qwen3-32B는 32K, GLM-4 Plus는 128K, GPT-4o는 128K입니다. Qwen의 32K 제한은 제가 긴 문서를 입력하려고 했을 때 당혹스럽게 만들었습니다. 도입하기 전에 사양 (specs)을 주의 깊게 읽으십시오.

지연 시간 (latency)은 제각각입니다. 어떤 모델은 다른 모델보다 더 빠릅니다. 제가 언급한 평균 1.2초는 일반적인 수치입니다. 실시간 채팅 인터페이스의 경우, 가장 빠릿빠릿한 모델을 찾기 위해 다양한 모델을 테스트해보고 싶을 것입니다. 저에게는 DeepSeek V4 Flash가 속도 면에서 승자였습니다.

오류 처리 (error handling)는 견고해야 합니다. 모델마다 서로 다른 특이점 (quirks)이 있습니다. 어떤 모델은 시스템 프롬프트 (system prompts)에 더 까다롭고, 어떤 모델은 JSON 모드 (JSON mode)를 다르게 처리하며, 어떤 모델은 특정 언어에서 이상한 문제를 일으키기도 합니다. 철저하게 테스트하십시오. 아주, 창피할 정도로 철저하게 말입니다.

프롬프트 엔지니어링 (Prompt engineering)은 전이되지만, 항상 완벽하게 전이되는 것은 아닙니다. GPT-4o를 위해 튜닝한 프롬프트가 DeepSeek에서는 조정이 필요할 수도 있습니다. 좋은 소식은 이러한 조정이 대개 미미하다는 점입니다. 나쁜 소식은 "미미한 조정"이라는 말이 사실상 "오후 내내 테스트를 해야 한다"는 뜻이라는 점입니다. 이를 위한 예산을 따로 잡아두십시오.

실제 사용을 통한 진짜 수치

좋습니다, 실제 수치를 약속드렸으니 진짜 수치를 보여드리겠습니다. 지난달 제 SaaS는 다음과 같이 처리했습니다:

  • DeepSeek V4 Flash에서 120만 개의 입력 토큰 (input tokens): $324
  • DeepSeek V4 Pro에서 38만 개의 입력 토큰 (input tokens): $209
  • GPT-4o에서 9.5만 개의 입력 토큰 (input tokens): $237.50
  • 실험을 위한 기타 다양한 모델들: 약 $50

총합: 약 $820

이전 설정에서 정확히 동일한 워크로드 (workload)를 수행했을 때는 한 달에 약 $2,100를 지불하고 있었습니다. 이는 61%의 절감 효과입니다. 사람들이 말하는 40~65% 범위와 거의 일치합니다.

출력 토큰 (output tokens)의 비율도 비슷했습니다. 비용의 대부분은 입력 토큰에 발생하는데, 이는 모든 모델에서 입력 토큰이 더 저렴하기 때문에 다행스러운 일입니다.

이제 밤에 잠을 더 편하게 잡니다. 자금 운용 기간 (runway)이 몇 달 더 연장되었습니다. 미뤄왔던 계약직 직원을 고용할 수 있게 되었습니다. 마케팅에 투자할 수도 있습니다. 절감된 비용은 단순히 화면 위의 숫자가 아닙니다. 그것은 선택권이고, 자유이며, 은행 계좌와의 훨씬 덜 스트레스 받는 관계입니다.

전환해야 할까요?

제가 여러분에게 무엇을 해야 할지 말씀드릴 수는 없지만

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0