오픈 소스 AI 모델 셀프 호스팅을 시도해 보았습니다. 제가 다시 API로 돌아간 이유입니다.

요약

오픈 소스 AI 모델을 직접 호스팅하는 것과 API를 사용하는 것의 비용 효율성을 비교 분석합니다. 분석 결과, 하루 5억 토큰 이상의 대규모 사용량이 아니라면 API를 사용하는 것이 인프라 관리 비용과 운영 효율성 측면에서 훨씬 유리합니다.

핵심 포인트

일일 5억 토큰 미만 사용 시 API가 비용 면에서 압도적으로 유리함
셀프 호스팅 시 GPU 유휴 상태로 인한 비용 낭비 발생
모니터링, 모델 업데이트 등 숨겨진 엔지니어링 운영 비용 존재
API 사용은 모델 전환이 쉽고 인프라 관리 부담이 없음

있잖아요, 저는 정말 셀프 호스팅 (Self-hosting)이 성공하기를 바랐습니다. 저는 홈랩 (Homelab)을 운영하고 있고, 제 인프라를 직접 소유하는 것을 좋아합니다. 저만의 GPU 클러스터에서 DeepSeek를 실행한다는 생각은 정말 멋지게 들렸습니다.

그래서 RunPod에서 A100을 몇 개 대여하여 주말 내내 모든 것을 설정하는 데 시간을 보냈습니다. vLLM, Nginx 리버스 프록시 (Reverse proxy), 모니터링 등 모든 것을 말이죠. 그리고 솔직히 말하자면? 작동했습니다. 모델이 돌아갔고, API 엔드포인트 (Endpoint)도 응답했습니다.

하지만 문제는 이겁니다 — 2주 후, 저는 모든 것을 종료하고 다시 global-apis.com의 API 엔드포인트로 돌아갔습니다. 그 이유를 말씀드리겠습니다.

숫자는 거짓말을 하지 않습니다

먼저, 오픈 소스 모델을 API를 통해 사용할 때 실제로 비용이 얼마나 드는지 살펴봅시다:

모델	라이선스	API 출력 가격	셀프 호스팅 추정치
DeepSeek V4 Flash	Open weights	$0.25/M	$500-2000/mo (GPU)
...

제 사용량인 하루 약 500만 토큰 (Tokens) 기준으로, API 사용 비용은 한 달에 약 $37.50 정도입니다 (DeepSeek V4 Flash를 $0.25/M 가격으로 사용 시). 동일한 모델을 셀프 호스팅하려면 GPU 비용만 최소 월 $500가 들 것이며, 그 GPU는 시간의 80% 동안 유휴 상태(Idle)로 있게 됩니다.

셀프 호스팅이 합리적인 경우 (그리고 그렇지 않은 경우)

저는 다양한 규모에서 수치를 계산해 보았습니다. 제가 발견한 결과는 다음과 같습니다:

하루 100만 토큰 사용 시 (제 사이드 프로젝트):

API: 월 $12.50
셀프 호스팅: 월 $400-800 (가장 저렴한 GPU 기준)
API가 32배 더 유리함

하루 5,000만 토큰 사용 시 (성장 중인 스타트업):

API: 월 $375
셀프 호스팅: 월 $1,000-2,000
API가 3~5배 더 유리함

하루 5억 토큰 사용 시 (대기업):

API: 월 $3,750
셀프 호스팅: 월 $4,000-8,000 (또는 자체 하드웨어 보유 시 $2,000-4,000)
인프라 팀이 있다면 마침내 경쟁력이 생김

따라서 하루에 5억 개 이상의 토큰을 처리하는 것이 아니라면, 비용 측면에서는 API가 승리합니다. 그리고 이것은 숨겨진 비용을 계산하기 전의 이야기입니다.

아무도 말하지 않는 숨겨진 비용

사람들이 API와 셀프 호스팅을 비교할 때, 보통 순수 GPU 비용과 API 토큰 비용을 비교합니다. 하지만 실제 비교는 다음과 같은 모습에 가깝습니다:

비용	월간
GPU 서버 (유휴 상태 및 사용 중 상태 모두 포함)	$400-8,000
...

이것들은 선택 사항이 아닙니다. 만약 API가 다운되었는데 모니터링(Monitoring) 시스템이 없다면, 사용자가 알려주기 전까지는 알 수 없습니다. 새로운 모델 버전이 출시되면 누군가는 그것을 다운로드하고, 테스트하고, 배포해야 합니다. 그것이 실제 엔지니어링 시간(Engineering time)입니다.

제가 실제로 구축한 것

현재 저의 설정은 다음과 같습니다. 매우 단순하며, 단 한 번의 운영(Production) 이슈도 발생하지 않았습니다:

from openai import OpenAI

client = OpenAI(
...

그게 전부입니다. API 키 하나면 됩니다. 문자열 하나만 바꾸면 184개의 모델 중 어떤 것이든 전환할 수 있습니다. GPU 대여도, vLLM 설정도, Nginx 리버스 프록시(Reverse proxy)의 골칫거리도 없습니다.

사실상 무료나 다름없는 모델들

이 오픈 소스 (Open-source) 모델 중 일부는 API를 통해 이용할 때 매우 저렴하여 사실상 무료나 다름없습니다:

모델	출력 (Output)	입력 (Input)
Qwen3-8B	$0.01/M	$0.01/M
...

백만 토큰당 $0.01라면, 100달러의 무료 크레딧으로 1,000만 개의 출력 토큰을 가지고 놀 수 있습니다. 이는 단 한 푼도 쓰지 않고 Global API에 있는 거의 모든 모델을 매우 철저하게 테스트하기에 충분한 양입니다.

셀프 호스팅 (Self-hosting)이 여전히 승리하는 경우

셀프 호스팅이 항상 틀렸다고 말하는 것은 아닙니다. 다음과 같은 경우에는 셀프 호스팅이 합리적입니다:

50ms 미만의 추론 지연 시간 (Inference latency)이 필요한 경우 (API는 약 100-300ms의 네트워크 오버헤드(Network overhead)를 추가함)
매일 지속적으로 5억 개 이상의 토큰을 사용하는 경우
엄격한 데이터 거주성 (Data residency) 요구 사항이 있는 경우
모델 가중치(Weights)나 추론 파라미터(Inference parameters)를 수정해야 하는 경우

하지만 나머지 95%의 개발자들에게는 어떨까요? API가 설정하기 더 빠르고, 실행 비용이 더 저렴하며, 인프라(Infrastructure)를 관리하는 대신 제품을 만드는 데 집중할 수 있게 해줍니다.

결론

저는 진심으로 셀프 호스팅이 정답이 되기를 바랐습니다. 하지만 일반적인 규모에서는 경제성이 맞지 않습니다. 손익분기점(Break-even)은 하루 약 5,000만 토큰 정도이며, 그 지점조차도 비용을 절감하는 것이 아니라 겨우 본전을 찾는 수준입니다.

저의 권장 사항은 다음과 같습니다: 우선 API(global-apis.com은 모든 오픈 소스 모델을 경쟁력 있는 가격에 제공하며, 100개의 무료 크레딧도 제공합니다)로 시작하여 제품을 구축하고 규모를 키우십시오. 만약 결국 하루 5,000만 개 이상의 토큰을 지속적으로 사용하게 된다면, 그때 셀프 호스팅 (Self-hosting)을 검토하십시오. 그 시점에는 이를 제대로 수행할 수 있는 수익과 팀을 갖추게 될 것입니다.

그것이 제가 하고 있는 방식이며, 솔직히 말해서 GPU 서버를 일일이 관리(Babysit)하지 않아도 된다는 점은 정말 기분이 좋습니다.

AI 자동 생성 콘텐츠

원문 바로가기