AI 모델 셀프 호스팅을 시도해 보았고, 그 결과는 이렇습니다

자, 이야기 좀 해볼게요. 저는 약 4개월 전 코딩 부트캠프를 졸업했는데, 다른 모든 신입 개발자들처럼 저도 AI 열풍에 완전히 빠져버렸습니다. 제 말은, 안 그런 사람이 어디 있겠어요? 모든 튜토리얼, 모든 채용 공고, 모든 Twitter 스레드가 온통 AI니, LLM(대규모 언어 모델)이니 하는 이야기뿐이니까요. 그래서 자연스럽게, 저는 이것들이 내부적으로 실제로 어떻게 작동하는지 "이해"해야겠다고 결심했습니다.

그 결정은 저를 끝없는 탐구의 길(rabbit hole)로 이끌었습니다. 그리고 솔직히 말하자면? 셀프 호스팅이라는 이 탐구의 길이 얼마나 비용이 많이 들고, 복잡하며, 약간은 황당해질지 전혀 예상하지 못했습니다. 제가 배운 것들을 여러분께 공유해 드릴 테니, 만약 여러분도 저와 같은 초보자라면 수백 달러와 엄청난 스트레스를 아낄 수 있을 것입니다.

나의 첫 번째 바보 같은 생각: "그냥 내가 직접 호스팅하면 되지"

주방 테이블에 노트북을 올려두고 앉아, 제가 아주 똑똑한 사람이 될 것이라고 확신했던 기억이 납니다. 모두가 API 접근을 위해 OpenAI와 Anthropic에 비용을 지불하고 있었고, 저는 이렇게 생각했습니다. "이 모델들은 이제 오픈 소스잖아. 그냥 하나 다운로드해서 내 컴퓨터에서 돌리면 돼. 영원히 무료지. 난 천재야."

독자 여러분, 저는 천재가 아니었습니다.

모델 크기를 찾아보기 시작했는데, 제가 무엇을 보고 있는지 전혀 알지 못했습니다. 우리는 15GB, 30GB, 심지어 70GB가 넘는 파일들에 대해 이야기하고 있었습니다. 제 노트북의 RAM(램)은 16GB입니다. 정말 과장이 아니라 사실입니다. 그래도 시도는 해봤습니다. 제 컴퓨터는 제트 엔진 같은 소리를 냈습니다. 그리고 두 번이나 충돌(crash)했습니다. 저는 노트북으로 하겠다는 생각을 빠르게 포기하고 클라우드 GPU 대여를 알아보기 시작했습니다.

그때 진짜 가격 충격이 저를 덮쳤습니다. 이 모델들을 위한 실제 GPU 비용을 산출하기 시작했을 때 제가 무엇을 발견했는지 보여드리겠습니다.

실제로 어떤 GPU가 필요한가요?

Lambda Labs, RunPod, 그리고 Vast.ai에서 너무 많은 시간을 보낸 끝에 제가 정리한 대략적인 내역은 다음과 같습니다:

모델 크기 (Model Size)	필요한 GPU	클라우드 비용	구매 시 (분할 납부)
7-9B 파라미터 (params)	1× A100 40GB	$400-800/mo	$200-400/mo
...
정말 충격적이었습니다. 한 달에 8,000달러라고요? 모델 하나를 돌리는 데? 부트캠프 급여를 받는 사람에게?? 잠시 영혼이 가출하는 기분이었습니다.

하지만 잠깐만요, 상황은 더 나빠집니다. 저 숫자들은 아무도 말하지 않는 항목들은 포함조차 되어 있지 않으니까요.

당신을 기습하는 숨겨진 비용들

머릿속으로 실제로 "진정한" 셀프 호스팅 (self-hosted) 설정을 구축하기 시작했을 때, 저는 GPU 대여가 단지 첫 번째 항목일 뿐이라는 것을 깨달았습니다. Reddit의 "그냥 셀프 호스팅해, 형" 같은 게시물들에서는 아무도 언급하지 않는 것 같은 다른 비용들이 산더미처럼 쌓여 있었습니다.

숨겨진 비용	월간 범위
GPU 서버 (유휴 상태일 때도)	$400-8,000
...
전혀 몰랐습니다. 그냥 서버 한 대를 빌려서 모델을 실행하면 끝인 줄 알았죠. 알고 보니 그 이면에는 거대한 운영 체계가 있었습니다. 누가 알았겠어요? (아마 모든 백엔드 엔지니어들은 알고 있었겠지만요.)

그리고 저는 API 경로를 발견했습니다

가격에 대한 현실 자각 타임을 가진 후, 저는 대안을 찾기 시작했습니다. 그러다 정말 제 정신을 쏙 빼놓는 무언가를 우연히 발견했습니다. 대부분의 이러한 오픈 소스 (open source) 모델들을 일반적인 API 호출을 통해 사용할 수 있다는 사실입니다. 동일한 모델, 동일한 가중치 (weights)를 사용하면서도, 여러분 쪽에서는 GPU가 전혀 필요하지 않습니다.

제가 찾아낸 라인업을 100만 토큰당 실제 출력 가격과 함께 보여드리겠습니다:

모델 (Model)	라이선스 (License)	출력 가격 (100만 토큰당)	셀프 호스팅 비용
DeepSeek V4 Flash	오픈 웨이트 (Open weights)	$0.25	$500-2,000/mo
...
저는 계속 페이지를 새로고침했습니다. 이게 진짜인가요? Qwen3-8B가 100만 토큰당 단 1센트라고요? 이건 사실상 반올림 오차 수준입니다. 테스트해 보았습니다. 작동합니다. 솔직히 말해서 아직도 조금 의심스럽긴 합니다.

코드 부분 (여기서부터 진짜 재미있어집니다)

자, 이제 제가 가장 기대했던 부분입니다. 제공업체를 찾고 나면 — 설정이 가장 쉬웠던 Global API를 사용해 왔습니다 — 실제 코드는 그냥... 평범합니다. 그러니까, 일반적인 OpenAI 스타일의 요청(requests)과 같습니다. Docker도, Kubernetes도, GPU의 신에게 기도할 필요도 없습니다.

DeepSeek V4 Flash를 호출하는 Python 예시입니다:

import requests

url = "https://global-apis.com/v1/chat/completions"
...

이게 끝입니다. 실제로 작동합니다. GPU가 전혀 없는 제 노트북에서 실행했습니다. 응답을 받는 데 1초 정도 걸렸습니다. 저는 화면을 보며 "나머지 코드는 다 어디로 갔지?"라고 계속 생각했습니다. 그게 전부입니다. 그게 전체 과정입니다.

OpenAI Python 클라이언트(제가 OpenAI 클라이언트를 정말 좋아하니 비난하지 마세요)를 사용한 또 다른 예시입니다:

from openai import OpenAI

client = OpenAI(
...

마찬가지입니다. Base URL을 global-apis.com/v1으로 지정하고, 모델을 선택한 뒤, 실행하면 됩니다. 거짓말 안 하고, 이 부분은 제가 마치 마법사가 된 것 같은 기분을 느끼게 해주었습니다.

커피를 뿜게 만든 수학적 계산

여기서 저는 정말 정신을 잃었습니다. 다양한 워크로드(workloads)에 대해 실제로 얼마를 지불하게 될지 대략적인 계산(back-of-the-napkin math)을 해보았는데, 숫자가 정말 엄청납니다.

시나리오 1: 나의 작은 사이드 프로젝트 (하루 100만 토큰)

이것은 제 개인 프로젝트들이 사용하는 대략적인 양입니다. 작은 챗봇이나 몇 가지 RAG 실험 같은 것들 말이죠.

옵션	월간 비용	지불 항목
API (DeepSeek V4 Flash)	$12.50	30M 토큰 × $0.25/M
셀프 호스팅 (가장 작은 GPU)	$400-800	유휴 상태일 때도 GPU 비용 발생

API가 말 그대로 32배 더 저렴합니다. 충격적이었습니다. 대여할 수 있는 가장 저렴한 GPU 설정조차 그냥 가만히 있는 것만으로도 한 달에 400달러를 태워버립니다. 반면 저는 12달러를 내고 있습니다.

시나리오 2: 스타트업의 꿈 (하루 5,000만 토큰)

실제 사용자가 있는 진짜 스타트업이라고 가정해 봅시다. 이것은 "성장 단계(growth-stage)"의 트래픽입니다.

옵션	월간 비용	비고
API (DeepSeek V4 Flash)	$375	1.5B 토큰 × $0.25/M
셀프 호스팅 (2× A100 80GB)	$1,000-2,000	하루 약 5,000만 토큰에 최적화

API가 여전히 3~5배 더 저렴합니다. 스타트업 규모에서도 단순히 API를 호출하는 것만으로 매달 수천 달러를 절약할 수 있습니다.

시나리오 3: 대기업 모드 (하루 5억 토큰)

이제 정말 거대한 규모를 다뤄보겠습니다. 대기업, 수많은 사용자, 실제 프로덕션 환경입니다.

옵션	월간 비용	비고
API (V4 Flash)	$3,750	15B 토큰 × $0.25/M
...
여기서부터 흥미로워집니다. 이 정도 규모에서는 셀프 호스팅 (Self-hosting)이 합리적으로 보이기 시작합니다. 하지만 이는 이미 하드웨어를 보유하고 있고 이를 관리할 DevOps 팀이 있는 경우에만 해당됩니다. 그 외의 모든 경우에는 여전히 API가 단순성 측면에서 승리합니다.

내가 실제로 일상에서 사용하는 방식

몇 주간의 테스트 끝에, 저는 꽤 지루하지만 신뢰할 수 있는 설정으로 정착했습니다. 솔직히 말해서, 지루하다는 것이 바로 승리하는 지점입니다.

개인 프로젝트나 학습용으로는 그냥 API를 사용합니다. 인프라(Infrastructure)에 대해서는 말 그대로 전혀 생각하지 않습니다. 코드를 작성하고, API를 호출하고, 모델이 응답하면, 저는 제 삶을 계속 살아갑니다.

조금 더 규모가 큰 사이드 프로젝트(제가 만들고 있는 작은 SaaS)에서도 똑같이 하고 있습니다. 이유는 다음과 같습니다:

설정이 5분밖에 걸리지 않았습니다. 말 그대로입니다. 계정을 만들고, API 키를 받고, 첫 호출을 했습니다. 셀프 호스팅을 했다면 제 주말 전체를 잡아먹었을 것입니다.
모델 전환이 코드 한 줄로 가능합니다. DeepSeek 대신 Qwen3-32B를 써보고 싶나요? 모델 이름만 바꾸면 됩니다. 그게 끝입니다. 셀프 호스팅은 재배포(Re-deploying)를 해야 하고, 어쩌면 다른 하드웨어에서 작업해야 하며, 모든 것을 다시 설정해야 함을 의미합니다.
확장(Scaling)은 다른 사람의 문제입니다. 만약 제 작은 SaaS가 바이럴이 된다면(꿈은 크게 가져야죠), API 제공업체가 부하를 처리합니다. 저는 GPU를 더 살 필요가 없습니다.
업데이트가 자동으로 이루어집니다. 손가락 하나 까딱하지 않고도 새로운 모델 버전을 사용할 수 있습니다.
그냥 잘 작동합니다. 기술적인 용어는 아니지만, 이것이 진실입니다.

제가 셀프 호스팅을 다시 고려할 유일한 경우는 사용량이 기업 규모로 폭증하고, 실제 DevOps 팀이 있으며, 이미 놀고 있는 GPU가 있는 경우뿐입니다. 하지만 그것은 제가 기꺼이 겪고 싶은 문제입니다.

나중에 사용할 수도 있는 하이브리드 전략

이것은 제가 읽었던 내용 중 하나로, 아직 그 정도 규모가 필요하지는 않지만 매우 영리하다고 생각한 방식입니다. 핵심 아이디어는 두 가지 접근 방식을 혼합하는 것입니다:

개발 및 스테이징 환경 (Development and staging environments): API. 유연성이 필요합니다. 모델을 빠르게 교체하고 싶을 것입니다.
일반적인 프로덕션 부하 (Normal production load): API. 신뢰할 수 있고 예측 가능하며, 새벽 3시에 GPU 문제로 호출받을 일이 없습니다.
버스트 용량 (Burst capacity): API. 트래픽이 급증할 때, 실시간으로 새로운 하드웨어를 가동하려고 애쓰는 사람이 되고 싶지는 않을 것입니다.
선택 사항: 특정 고부하 유스케이스를 위한 셀프 호스팅 (self-host for specific high-volume use cases) — 이미 팀과 하드웨어를 갖추고 있는 경우에만 해당됩니다.

현재 저에게 있어 "선택 사항" 부분은 확고하게 "언젠가" 목록에 들어 있습니다. API