오픈 소스를 사용하여 스타트업의 AI 비용을 97% 절감한 방법

지난 3월, 저는 클라우드 청구서를 확인하고 책상에 커피를 뿜을 뻔했습니다. OpenAI에 지불한 금액이 2,000달러였습니다. 챗봇 하나를 위해 말이죠. 아주 평범하고 규모가 크지 않은 단 하나의 챗봇을 위해서였습니다.

제게는 세 가지 선택지가 있었습니다. 해당 기능을 중단하거나, 가격을 올리고 사용자들이 반발하지 않기를 기도하거나, 아니면 실제로 다른 대안이 있는지 찾아보는 것이었습니다. 저는 MIT 라이선스 방식을 선호하는 사람이기에, 세 번째 옵션이 유일하게 정직한 선택처럼 느껴졌습니다. 저는 이후 4주간의 주말을 AI API 환경을 파헤치고, 모델들을 벤치마킹(benchmarking)하며, 오픈 웨이트(open weights)와 오픈 엔드포인트(open endpoints)를 중심으로 스택을 재구축하는 데 보냈습니다.

제가 발견한 사실은 AI 제품을 구축하는 방식에 대한 제 생각을 완전히 바꾸어 놓았습니다. 그리고 여러분에게도 똑같은 변화를 일으킬 수 있습니다. 이것은 제가 월 200달러의 OpenAI 자동 결제를 신청하기 전에 누군가 건네주었으면 했던 가이드입니다.

창업자들에게 아무도 말해주지 않는 추악한 비밀은 GPT-4o와 최고의 오픈 웨이트(open-weight) 대안 모델 사이의 성능 격차가 기본적으로 사라졌다는 것입니다. 실제 애플리케이션에서 정말 중요한 벤치마크(benchmarks) 기준으로 3~5% 이내의 차이만을 보이고 있습니다. 반면, 가격 격차는 거대한 심연과 같습니다. OpenAI를 통해 0.00425달러가 들던 동일한 채팅 완성(chat completion) 작업이 다른 곳에서는 0.000154달러가 듭니다. 이것은 2배 개선이 아닙니다. 27배 개선입니다. 분기별로 보면, 이 수치는 "런웨이(runway)를 태워버리는 비용"을 "거의 신경 쓰이지 않는 항목"으로 바꿔 놓습니다.

제가 정확히 어떻게 이 문제를 생각하는지, 현재 프로덕션(production)에서 무엇을 배포하고 있는지, 그리고 이 모든 것을 연결하기 위해 사용하는 코드가 무엇인지 설명해 드리겠습니다.

아무도 경고하지 않는 벤더 종속(Vendor Lock-in)의 함정

저는 벤더 종속(vendor lock-in)을 일반적인 독점 소프트웨어에 대해 생각하는 것과 똑같은 방식으로 생각합니다. 그것은 미래의 자신에게 부과하는 세금입니다. 폐쇄형 제공업체에 보내는 모든 API 호출은 그들이 가격을 안정적으로 유지하고, 모델을 계속 사용할 수 있게 하며, 약관을 합리적으로 유지할 것이라는 작은 도박입니다. 역사는 그들이 그렇게 하지 않을 것이라고 말합니다. API 가격이 하락한 것은 맞지만, 관계의 구조는 변하지 않았습니다. 여러분은 여전히 검사할 수 없고, 수정할 수 없으며, 직접 실행할 수 없는 무언가에 대한 접근 권한을 빌려 쓰고 있는 것입니다.

이는 사람들이 인식하는 것보다 훨씬 더 중요한 문제입니다. 제품 전체가 단일 벤더(vendor)의 엔드포인트(endpoint)에 결합되어 있다면, 여러분의 로드맵(roadmap)은 그들의 로드맵에 따라 휘어지게 됩니다. 그들이 모델을 지원 중단(deprecate)하나요? 여러분은 허둥지둥 대처해야 합니다. 그들이 가격을 올리나요? 비용을 감수하거나 시스템을 재구축해야 합니다. 그들이 용량(capacity) 문제로 힘든 한 주를 보내나요? 여러분의 사용자들은 503 에러를 보게 됩니다. 이 중 어느 것도 결코 좋은 상황이 아닙니다.

오픈 소스(Open source)와 오픈 웨이트(open-weight) 모델은 이 상황을 뒤집습니다. 가중치(weights)가 공개되며, 종종 Apache-2.0 또는 MIT 스타일의 라이선스 하에 제공됩니다. 정말 원한다면 셀프 호스팅(self-host)을 할 수도 있습니다. 미세 조정(fine-tune)도 가능하고, 감사(audit)도 할 수 있습니다. 그리고 결정적으로, (동일한 가중치를 실행하는 일부를 포함하여) 번창하는 제공업체 생태계 덕분에 6주간의 마이그레이션(migration) 대신 설정 파일의 한 줄을 바꾸는 것만으로 전환할 수 있습니다. 이것이 바로 스타트업이 실제로 협상할 수 있게 해주는 선택권(optionality)입니다.

저도 일부 폐쇄형 모델(closed models)이 순수 벤치마크(benchmarks)에서는 여전히 우세하다는 점을 먼저 인정하겠습니다. GPT-4o, Claude, Gemini 등은 결코 뒤처지는 모델이 아닙니다. 하지만 "벤치마크에서 이기는 것"과 "여러분의 특정 제품에 적합하여 이기는 것"은 서로 다른 게임입니다. 초기 단계 스타트업이 수행하는 업무의 95%(요약, 콘텐츠 생성, 코드 보조, 분류, 추출, RAG, 단순 에이전트)에 대해서는 오픈 대안 모델들이 이미 충분히 훌륭합니다. 정직한 질문은 "세상에서 무엇이 가장 좋은가"가 아니라 "나의 비용 소모율(burn rate)에 무엇이 가장 최적인가"여야 합니다.

실제로 AI 비용을 계산하는 방법

모든 가격 페이지는 100만 토큰(token)당 수치를 인용하며, 이를 그냥 지나치기 쉽습니다. 제가 이를 명확히 이해하게 된 사고 모델(mental model)을 소개합니다.

토큰은 대략 영어 텍스트 4글자 정도이므로, 100만 토큰은 약 75만 단어, 즉 기본적으로 두꺼운 소설 한 권 분량입니다. 여러분은 입력(input)으로 보내는 것과 출력(output)으로 돌아오는 것에 대해 각각 별도로 비용을 청구받으며, 일반적으로 출력 비용이 입력 비용보다 2~4배 더 비쌉니다. 이러한 비대칭성(asymmetry)은 장황한 프롬프트(prompt)와 지나치게 말이 많은 응답에 불이익을 줍니다.

실제 숫자를 대입해 봅시다. 제 제품의 전형적인 챗봇 대화 한 번은 약 500개의 입력 토큰(input tokens)과 300개의 출력 토큰(output tokens)으로 이루어집니다. GPT-4o의 요율인 백만 입력 토큰당 $2.50, 백만 출력 토큰당 $10.00를 적용하면, 단 한 번의 대화에 $0.00125와 $0.003이 들어 총 $0.00425의 비용이 발생합니다. 이를 월간 대화 수 10,000회로 곱하면 $42.50가 됩니다. 재앙적인 수준은 아닙니다. 하지만 제 트래픽은 10,000회 수준이 아니었습니다. 200,000회를 향해 가고 있었고, 계산 결과는 빠르게 끔찍해지고 있었습니다.

이제 이를 DeepSeek V4 Flash로 바꿔보겠습니다. 백만 입력 토큰당 $0.14, 백만 출력 토큰당 $0.28입니다. 동일한 500/300 대화의 경우: $0.000070와 $0.000084가 더해져 총 $0.000154가 됩니다. 만 번의 대화 비용은 $1.54입니다. 20만 번의 대화 비용은 $30.80입니다. 이 비용 항목은 이사회 회의 안건에서 회계사가 거의 눈치채지 못할 수준으로 바뀌었습니다.

기능을 추가하기 시작하면 절감 효과는 복리로 작용합니다. 사용자가 업로드한 문서에 대해 백그라운드 요약(summarization) 작업을 실행하고 싶습니까? 청크 단위 재순위화(chunked re-ranking)를 포함한 RAG 파이프라인을 추가하고 싶습니까? 사용자에게 새로운 완성(completion)을 트리거하는 "재생성(regenerate)" 버튼을 제공하고 싶습니까? 이러한 각 기능은 토큰 소비량을 배가시키지만, 폐쇄형 소스(closed-source) 가격 체제하에서는 결코 불가능했던 방식으로 각각이 사실상 무료가 됩니다.

이해할 가치가 있는 몇 가지 다른 비용 레버(levers)도 있습니다:

속도 제한(Rate limits)은 소리 없는 살인자입니다. 저렴한 제공업체들은 종종 무료 또는 낮은 티어에서 분당 20~60개의 요청(requests per minute, RPM)으로 제한을 둡니다. 프로토타이핑 단계에서는 괜찮습니다. 하지만 수백 명의 동시 접속 사용자가 있는 프로덕션(production) 환경에서는 최소 100 RPM이 필요하며, 이상적으로는 1M 이상의 TPM(tokens per minute) 여유 공간이 필요합니다. 확정하기 전에 문서를 확인하십시오.

신뢰성과 지연 시간(latency)은 사람들이 생각하는 것보다 더 중요합니다. 제공업체의 추론 클러스터(inference cluster)가 과부하되어 챗봇의 응답에 8초가 걸린다면, 사용자는 이를 즉시 알아차립니다. 문서화된 p99 지연 시간과 최소 99.9%의 가동 시간(uptime)을 확인하십시오. 저렴한 옵션들이 모두 동일한 품질을 제공하는 것은 아닙니다.

제가 실제로 프로덕션에 배포하는 모델들

저는 약 9개월 동안 프로덕션 환경에서 계층적 접근 방식(tiered approach)을 사용해 왔습니다. 어떤 모델들이 살아남았고, 그 이유는 다음과 같습니다.

Tier 1: 주력 모델 (The Workhorse) — DeepSeek V4 Flash

이 모델은 제 추론(inference)의 약 80%를 담당합니다. Global API라는 제공업체를 통해 구동되는데, 이 부분에 대해서는 잠시 후에 더 자세히 말씀드리겠습니다만, 간단히 말해 표준 SDK로 접근할 수 있는 OpenAI와 호환되는 엔드포인트를 제공받았다는 것입니다. 중국 전화번호도 없고, VPN도 필요 없고, 이상한 점도 없습니다.

수치: 입력 토큰 백만 개당 $0.14, 출력 토큰 백만 개당 $0.28, 128K 컨텍스트 창(context window). 제가 중요하게 생각하는 벤치마크에서 V4 Flash는 MMLU에서 86.4%, HumanEval의 pass@1에서 88.2%를 달성했습니다. 이 수치는 GPT-4o와 몇 점 차이밖에 나지 않는데, 솔직히 저는 콘텐츠 생성, 요약, 어시스턴트 작업에 있어서는 그 이상으로 충분합니다.

가장 마음에 드는 부분은 개발자 경험(developer experience)입니다. OpenAI 클라이언트를 그대로 대체할 수 있습니다. 크레딧 기반 가격 책정 방식이며 크레딧이 만료되지 않습니다. 가입 시 무료 크레딧을 제공받는데, 약 $1 상당으로 테스트 완료를 수천 번 실행하기에 충분합니다. 부트스트랩(bootstrapped) 창업가에게는 '돈을 쓰기 전에 한 달 동안 실험해 볼 수 있다'는 느낌 자체가 엄청난 장점입니다.

현재 백엔드에서 실제로 구동하고 있는 코드는 다음과 같습니다:

from openai import OpenAI

client = OpenAI(
...

이게 전부입니다. 이미 알고 계신 openai 패키지, 동일한 chat.completions.create 호출, 동일한 응답 형태를 사용합니다. 저는 긴 주말 동안 전체 코드베이스를 마이그레이션했는데, 유일하게 달라진 부분은 base_url뿐이었습니다. 이것 자체가 가능하다는 사실이야말로 현재 AI 인프라에서 가장 과소평가되고 있는 것이라고 생각합니다.

Tier 2: 고성능 모델 (The Heavy Lifter) — DeepSeek Reasoner

작업이 진정으로 복잡할 때 — 즉, 다단계 추론 (multi-step reasoning), 예외 케이스를 고려해야 하는 코드 작성, 멀티 툴 에이전트 (multi-tool agent) 계획 등 — 저는 DeepSeek Reasoner를 사용합니다. 이는 동일한 제품군에서 나온 사고 사슬 (Chain-of-Thought, CoT) 모델이며, 구조적인 차이점은 최종 답변을 내놓기 전에 명시적인 추론 토큰 (reasoning tokens)을 생성한다는 것입니다. 이는 수학, 논리, 그리고 구조화된 계획 수립 문제에서 실질적인 도움을 줍니다.

가격은 더 높습니다: 입력 토큰 100만 개당 $0.55, 출력 토큰 100만 개당 $2.19입니다. 그럼에도 폐쇄형 소스 (closed-source) 계층의 그 어떤 모델보다도 극적으로 저렴합니다. 컨텍스트 윈도우 (Context window)는 동일한 128K이며, 제가 시도했던 모든 작업에 충분했습니다.

추가적인 추론 토큰이 비용을 부풀리고 대부분의 프롬프트에는 과하기 때문에, 기본적으로 Reasoner를 사용하지는 않습니다. 하지만 "이 코드베이스를 분석하고 리팩토링을 제안해줘" 또는 "이 다중 제약 조건 스케줄링 문제를 해결해줘"와 같은 요청의 경우, 품질의 도약은 4배의 비용을 지불할 가치가 있습니다. 여전히 GPT-4o보다 훨씬 저렴합니다.

어떤 모델을 사용할지 결정하는 방법

사람들은 저에게 정교한 라우팅 계층 (routing layer)이 있는지 묻곤 합니다. 저는 없습니다. 결정 트리 (decision tree)는 부끄러울 정도로 단순합니다:

프롬프트가 단순한 콘텐츠 작업(요약, 분류, 추출, 변환, 생성)인 경우 — DeepSeek V4 Flash.
프롬프트가 모델로 하여금 여러 단계를 거쳐 생각하거나, 수학을 풀거나, 사소하지 않은 코드를 작성하거나, 일련의 행동을 계획해야 하는 경우 — DeepSeek Reasoner.
임베딩 (embeddings) 또는 시맨틱 검색 (semantic search)을 수행하는 경우 — 이는 완전히 다른 카테고리이며, 이 분야의 오픈 소스 생태계(BGE, E5, Nomic 등)는 폐쇄형 세계보다 훨씬 앞서 있기 때문에 애초에 폐쇄형 임베딩 API에 비용을 지불할 일이 전혀 없습니다.

AI에서는 80/20 법칙이 강력하게 적용됩니다. 제 토큰 지출의 80%는 V4 Flash가 더 비싼 모델들과 구별할 수 없을 정도로 성능이 동일한 작업에 사용됩니다. 나머지 20%가 더 큰 모델을 꺼내 들 가치가 있는 종류의 작업입니다. 80%를 최적화하는 것만으로도 나머지 20%에는 전혀 손을 대지 않고도 대부분의 비용 절감 효과를 얻을 수 있습니다.

"프리미엄" 가격 책정에 대한 짧은 불평

스타트업이 "GPT-4 기반"이라거나 "Claude를 사용하여 구축됨"이라고 자랑스럽게 발표하는 것을 볼 때마다, 저는 속으로 작은 계산을 해보곤 합니다. 월간 LLM 상호작용이 약 50,000회 정도 발생하는 중간 규모의 제품이라면, 그러한 브랜딩 결정으로 인해 오픈 웨이트 (open-weight) 대안을 사용할 때보다 매달 200~400달러를 추가로 지출하고 있을지도 모릅니다. 연간으로는 2,400달러에서 4,800달러에 달합니다. 자금력이 제한적인 (bootstrapped) 스타트업에게 이 금액은 두 달 치 계약직 급여가 될 수도 있고, 6개월 치의 기본 인프라 비용이 될 수도 있으며, 혹은 매출이 저조한 달에 창업자가 패닉에 빠지지 않게 해주는 급여 완충 장치가 될 수도 있습니다.

"프리미엄" 브랜딩은 공짜가 아닙니다. 누군가는 그 비용을 지불하고 있습니다. 대개는 창업자인 당신이며, 이는 소진되는 런웨이 (runway) 혹은 투자자들에게 정당화해야 하는 더 높은 번 레이트 (burn rate)의 형태로 나타납니다. 그런데 무엇을 위해서 말입니까? 사용자들이 절대, 결코 알아차리지 못할 벤치마크 점수의 차이 때문인가요?

물론 어떤 기업들은 진정으로 최첨단 (frontier) 모델이 필요하다는 점을 이해합니다. 수백 페이지에 달하는 긴 문맥 추론 (long-context reasoning), 멀티모달 (multimodal) 이해, 그리고 최첨단 기술이 필요한 경우 말입니다. 만약 당신이 그런 경우라면 좋습니다, 프리미엄 비용을 지불하세요. 하지만 중간 수준의 스타트업은 그것이 필요하지 않습니다. 중간 수준의 스타트업은 "이 이메일을 더 친근하게 들리도록 다시 작성해줘"라거나 "이 회의록에서 실행 항목을 추출해줘"와 같은 프롬프트를 보냅니다. 그런 작업을 위해 100만 토큰당 10달러짜리 모델이 필요하지는 않습니다. 당신에게 필요한 것은 제 베타 테스터 중 한 명이 "괜찮아요, 차이를 모르겠어요"라고 말한 것처럼, 100만 토큰당 0.28달러인 모델입니다.

더 큰 그림: 왜 지금 이 순간이 중요한가

제가 이 절감액을 혼자만 알고 있지 않고 이 글을 쓰는 데에는 이유가 있습니다. 현재 AI 분야에서 일어나고 있는 경제적 변화는 2000년대 초반의 웹 호스팅, 2010년대의 데이터베이스, 그리고 1990년대의 운영 체제에서 일어났던 변화와 동일합니다. 폐쇄적이고 비싸며 벤더가 통제하는 스택이 개방적이고 저렴하며 커뮤니티 중심적인 스택에 자리를 내어주고 있으며, 새로운 스택 위에서 구축된 제품들은 단위 경제성 (unit economics)이 확보됨에 따라 10배 더 야심 차게 나아갈 수 있게 됩니다.

Apache 2.0, MIT, 그리고 모델 가중치 (model weights)를 규정하는 수많은 오픈 라이선스들은 단순한 법적 문서가 아닙니다. 그것은 기술이 계속해서 접근 가능한 상태로 유지될 것이라는 약속입니다. 즉, 허가를 구할 필요 없이 기술을 포크 (fork)하고, 감사 (audit)하며, 자체 하드웨어 (own metal)에서 실행하고, 그 위에 제품을 출시할 수 있다는 약속입니다. 오픈 가중치 (open weights)를 기반으로 AI 기능을 구축하는 모든 스타트업은 자신들의 엔지니어링 시간과 비용을 투입하여 그러한 미래에 투표하고 있는 것입니다.

폐쇄된 정원 (walled gardens)은 여전히 존재하며, 여전히 매끄럽고 화려합니다. 그들의 마케팅 팀은 출력 토큰 (output tokens) 100만 개당 10달러를 지불하는 것이 진지하고 성숙한 선택인 것처럼 느끼게 만드는 데 여전히 매우 능숙합니다. 하지만 현장에서 뛰는 사람들 — 실제 제품을 만드는 사람들, 그리고 비용 항목 (line item)에 따라 런웨이 (runway)가 결정되는 사람들 — 우리는 더 잘 알고 있습니다. 우리는 계산을 마쳤습니다. 우리는 코드를 배포했습니다. 그리고 계산 결과는 오픈 소스가 승리한다는 것을 보여줍니다.

직접 시도해 보세요

오픈 소스를 사용하여 스타트업의 AI 비용을 97% 절감한 방법

요약

핵심 포인트

댓글