SaaS AI 도구들을 셀프 호스팅 (Self-Hosted) 대안으로 교체한 이유

나의 AI 도구 비용은 월 50달러였습니다. 이를 8달러로 줄였습니다.

제가 지불하던 비용을 합산해 보겠습니다. ChatGPT Plus 월 20달러, Claude Pro 월 20달러, 그리고 Midjourney 월 10달러였습니다. 하루에 아마 2시간 정도 사용하는 AI 도구들을 위해 월 50달러, 즉 연간 600달러를 지불하고 있었던 셈입니다.

3개월 전, 저는 이 모든 구독을 취소했습니다. 이제 저는 API 호출에 월 약 8달러를 지출하며, 나머지는 로컬 (locally)에서 실행합니다. 솔직히 말씀드리면, 품질 차이는 생각보다 크지 않았고, 개인정보 보호 (privacy) 측면에서의 개선은 엄청납니다.

이 글은 "SaaS는 악이다"라는 식의 불평이 아닙니다. 제가 실제로 무엇을 했는지, 비용이 얼마나 들었는지, 그리고 어떤 트레이드오프 (tradeoffs)가 있는지에 대한 실질적인 분석입니다.

제가 교체한 월 50달러 규모의 스택 (Stack)

각 도구를 정확히 어떤 용도로 사용했는지는 다음과 같습니다:

도구	월간 비용	실제 사용 용도
ChatGPT Plus	$20	코드 리뷰 (Code review), 빠른 질의응답 (Q&A), 초안 작성
...

합계: 월 50달러. 대부분의 날에 저는 ChatGPT를 30분, Claude를 20분 정도 사용했습니다. Midjourney는 일주일에 두 번 정도 사용했고요. 사용당 비용이 너무 비효율적이었습니다.

현재 제가 실행 중인 것들

채팅/코드 작업용: NanoGPT API. 사용한 만큼 지불하는 방식이며 구독이 없습니다. 저의 사용 패턴으로는 월 약 5~6달러를 지출합니다. 사용 가능한 모델들은 대부분의 작업에서 GPT-4 및 Claude와 경쟁할 만한 수준입니다. 대안을 탐색하고 싶다면 개인정보 보호 중심의 AI 옵션 가이드를 참고하세요.

로컬 작업용: 제 데스크톱(이미 보유 중인 RTX 3090)에서 llama3.1:8b를 실행하는 Ollama. 무료이며, 빠르고, 프라이빗 (private)합니다. 프롬프트 (prompts)가 서버로 전송되는 것을 원치 않는 모든 작업에 이를 사용합니다.

이미지용: ComfyUI를 통한 Stable Diffusion XL. 한 번 설정하면 로컬에서 실행됩니다. 예술적인 작업에서는 Midjourney 수준의 품질은 아니지만, 블로그 헤더나 컨셉 목업 (concept mockups) 용도로는 충분하고도 남습니다.

지난 3개월간의 실제 지출 내역은 다음과 같습니다:

# 나의 실제 비용 (지난 3개월)
costs = {
    "nanogpt_api": {
...

월 41.49달러를 절약했습니다. 이는 연간 497.88달러에 달합니다. 인생을 바꿀 만큼 큰 돈은 아니지만, 매달 근사한 저녁 식사를 즐길 수 있는 금액입니다.

셀프 호스팅 (Self-Hosted) 설정

제가 실제로 로컬 스택 (Local Stack)을 구축한 방법은 다음과 같습니다. 주말 내내 작업했습니다.

1단계: 텍스트를 위한 Ollama

# Install Ollama
curl -fsSL https://ollama.ai/install.sh | sh

...

8B 모델은 8GB VRAM에서 원활하게 작동합니다. 만약 24GB(3090 또는 4090과 같은)를 보유하고 있다면, 13B 코드 모델이 프로그래밍 작업에서 눈에 띄게 더 뛰어납니다.

2단계: 클라우드 작업을 위한 NanoGPT API

로컬 모델이 처리할 수 없는 작업(복잡한 추론, 매우 긴 컨텍스트)의 경우, NanoGPT의 API를 사용합니다. 이는 구독 없이 토큰당 비용을 지불하는 방식입니다:

import requests

def ask_nanogpt(prompt: str, model: str = "default") -> str:
...

이러한 접근 방식을 시도해보고 싶다면, NanoGPT는 구독 없이 사용한 만큼만 지불하는 API 액세스를 위한 좋은 시작점입니다.

3단계: 이미지를 위한 Stable Diffusion

# Install ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
...

http://localhost:8188에서 웹 UI (Web UI)에 접속할 수 있습니다. 블로그 헤더나 빠른 컨셉 구상을 위해 4장의 이미지를 생성한 뒤 가장 좋은 것을 선택합니다. 3090 기준으로 이미지당 약 30초가 소요됩니다.

셀프 호스팅 (Self-Hosted)이 승리하는 지점

개인정보 보호 (Privacy). 로컬 작업을 수행할 때 제 프롬프트는 절대 제 네트워크를 벗어나지 않습니다. 개발자에게 이는 학습 데이터 정책을 걱정할 필요 없이 전체 코드베이스를 로컬 모델에 붙여넣을 수 있음을 의미합니다.

속도 제한 없음 (No rate limits). Ollama는 저를 제한하지 않습니다. 원한다면 100개의 쿼리를 연속으로 실행할 수 있습니다.

커스터마이징 (Customization). 저는 제 코딩 스타일과 프로젝트 컨벤션 (Conventions)에 맞춰 작은 모델을 미세 조정 (Fine-tuned)했습니다. ChatGPT는 그렇게 할 수 없습니다.

오프라인 작동 (Offline works). 정전이 되었나요? 인터넷이 끊겼나요? 로컬 모델은 여전히 작동합니다 (물론 배터리 백업이 있어야겠지만, 그래도 작동합니다).

SaaS가 여전히 승리하는 지점

트레이드오프 (Tradeoffs)에 대해 솔직하게 말씀드리겠습니다:

Claude의 글쓰기 품질. 미묘한 차이가 있는 긴 글쓰기의 경우, Claude는 여전히 제가 로컬에서 실행할 수 있는 그 어떤 것보다 뛰어납니다. 저는 대체 수단으로 NanoGPT API 호출을 유지하고 있지만, 똑같지는 않습니다.

GPT-4의 추론 (Reasoning). 복잡한 다단계 추론 작업은 여전히 클라우드로 보냅니다. 8B 로컬 모델은 GPT-4가 저지르지 않는 실수를 합니다.

Midjourney의 미학. SDXL도 좋지만, Midjourney의 예술적 품질은 여전히 앞서 있습니다. 중요한 게시물의 대표 이미지(hero images)가 필요할 때는 가끔 Midjourney 대체 API를 사용합니다.

유지보수 제로. SaaS 도구들은 스스로 업데이트됩니다. 반면, 저의 로컬 스택은 모델 업데이트, 드라이버 업데이트, 그리고 때때로 발생하는 문제 해결이 필요합니다.

실제 일일 워크플로우

전형적인 하루는 다음과 같습니다:

오전 코드 검토 — 로컬 Ollama (codellama:13b). 빠르고, 사적이며, 무료입니다.
간단한 질문 — NanoGPT API. 저렴하고, 빠르며, 충분히 좋습니다.
긴 문서 분석 — 더 큰 컨텍스트를 가진 NanoGPT API. 문서당 약 $0.02입니다.
블로그 헤더 이미지 — ComfyUI를 통한 로컬 SDXL. 무료입니다.
복잡한 글쓰기 — NanoGPT API. 여전히 미묘한 뉘앙스가 필요한 텍스트에는 최고입니다.

핵심 통찰: 제가 ChatGPT에 사용했던 것의 80%는 GPT-4 수준의 품질이 필요하지 않았습니다. 로컬 8B 모델만으로도

원문은 https://privacy-ai-guide.vercel.app에서 처음 게시되었습니다.

Insights