모두가 공유하는 오픈 모델 비용 차트는 API 가격입니다. 셀프 호스팅(Self-hosting) 시 실제로 얻게 되는 것은 무엇인가요 (측정

현재 한 차트가 돌고 있습니다. y축은 지능(intelligence), x축은 실행 비용(cost to run)이며, 높은 지능과 낮은 비용이 만나는 왼쪽 상단에는 녹색의 "가장 매력적인(most attractive)" 사분면이 있습니다. 사람들이 게시하는 핵심 내용은 이 녹색 사분면이 거의 전적으로 오픈 소스(open source)라는 것입니다. DeepSeek, GLM, MiniMax, Kimi, Qwen은 모두 충분히 똑똑하면서도 저렴한 것으로 나타나는 반면, 폐쇄형 프런티어 모델(closed frontier models)은 오른쪽에 비싼 가격으로 자리 잡고 있습니다.

이는 실제 트렌드이며 차트가 틀린 것은 아닙니다. 하지만 x축 라벨을 읽어보십시오. 실행 비용은 "혼합된 API 가격(blended API price)"입니다. 그 숫자는 "누군가의 API를 통해 이 모델을 호출하는 데 비용이 얼마나 드는가"에 대한 답이며, 이는 "이 모델을 직접 실행하는 데 비용이 얼마나 드는가"라는 질문과는 다른 질문입니다. 셀프 호스팅(self-host)을 하는 우리에게 두 번째 질문이 핵심이며, 이 차트는 그 답을 조용히 숨기고 있습니다.

그래서 제가 소유한 두 개의 그래픽 카드(cards)로 측정한, 차트가 생략한 내용을 알려드리겠습니다.

함정: 녹색 사분면은 셀프 호스팅할 수 없습니다

해당 가치 사분면에서 승리하고 있는 오픈 모델들은 작지 않습니다. GLM-5.2를 예로 들어보겠습니다. 오픈 프런티어(open frontier)가 마침내 따라잡았다고 말할 때 모두가 지목하는 모델입니다. 이 모델은 코딩 우선(coding-first) 모델로, 현재 코딩 벤치마크에서 가장 강력한 오픈 웨이트(open weight) 모델입니다. 토큰당 약 40B의 활성 파라미터를 가진 ~744B 파라미터 규모의 MoE(Mixture of Experts) 모델입니다. 그리고 폐쇄형 3대 모델과 달리, 웨이트(weights)는 실제로 MIT 라이선스를 따릅니다. 그것이 이 모델의 핵심 제안입니다. 토큰당 수수료 없이, 자신의 장비에서 직접 실행할 수 있다는 것입니다. 저렴한 API 가격(100만 토큰당 입력 약 $1.40, 출력 약 $4.40로 GPT-5.5의 약 6분의 1 수준)이 헤드라인을 장식합니다. 하지만 이 모델을 차별화하는 요소는 나머지 절반입니다. 바로 직접 실행할 수 있다는 점입니다.

직접 시도해 보십시오. Q4 양자화(Quantization)를 적용한 744B 모델은 가중치(weights)가 대략 372GB에 달합니다. 다른 가치 사분면(value-quadrant) 모델들도 마찬가지 클래스이며, DeepSeek와 Kimi는 수천억 개에서 1조 개에 달하는 파라미터를 가집니다. 이 중 그 어떤 것도 데스크톱 GPU 한 개, 두 개, 혹은 네 개로는 감당할 수 없습니다. 여기서 "셀프 호스팅 가능(Self-hostable)"하다는 의미는 여러 개의 80GB 데이터센터용 카드가 장착된 서버를 의미하며, 이는 바로 "오픈 모델은 저렴하다"는 이야기가 당신을 면제해 주기로 했던 바로 그 인프라적 골칫거리입니다. 따라서 선택지는 실재하지만, 대부분의 사람들이 소유한 하드웨어에서는 실재하지 않습니다.

결국 셀프 호스팅을 한다고 해서 초록색 사분면(green quadrant)에 도달하는 것은 아닙니다. 대신 당신 앞의 카드에 들어가는 모델, 즉 한 단계 아래 계층(tier)의 모델을 얻게 됩니다. 유용한 질문은 이것입니다: 얼마나 낮은 단계이며, 그 정도면 충분히 좋은가? 그 부분은 차트 대신 숫자로 답변해 드릴 수 있습니다.

소비자용 카드에서 실제로 구동되는 것

두 가지 계층, 즉 모두 단일 소비자용 GPU를 사용하며 Ollama를 통해 GPU에서 완전히 실행되는 모델들입니다. 다음은 이전 글들에서 측정했던 저의 실행 결과들을 한데 모은 것입니다:

GPU (중고 가격)	잘 맞는 최적의 모델	생성 토큰/초 (gen tok/s)	프리필 토큰/초 (prefill tok/s)	컨텍스트 여유 공간 (context headroom)
11GB — GTX 1080 Ti (~$200)	Gemma 4 12B QAT	~32	~315	q8 KV 적용 시 16k 컨텍스트의 12B
...
¹ 이 카드에서 프리필(Prefill)은 하나의 숫자로 고정되지 않으며, 컨텍스트에 따라 급격히 변합니다. 64k 컨텍스트에서는 첫 번째 토큰 생성에 약 59초가 걸렸습니다. 아래의 "긴 컨텍스트는 진짜 세금이다" 섹션을 참조하십시오.

11GB 카드는 12B 모델까지는 안정적으로 구동됩니다. 밀집형(dense) 27B 모델은 이 카드 한 장에 전혀 들어가지 않습니다. 24GB 카드로 넘어가면 추측 디코딩(speculative decoding)을 켰을 때 약 75 tok/s의 빠른 속도로 밀집형 27B 모델을 구동할 수 있으며, 이것이 바로 최적의 지점(sweet spot)입니다. 27B는 12B보다 성능 면에서 확실한 도약이며, 여전히 전체가 VRAM 내에 존재하기 때문입니다.

지능 차트(intelligence chart) 상에서 이들은 중간 계층 모델이며, 초록색 사분면의 프런티어 오픈 모델들보다는 훨씬 아래에 위치합니다. 따라서 "셀프 호스팅을 하면 무엇을 얻는가"에 대한 진짜 답변은 다음과 같습니다: 저렴한 API 승자들보다는 한 단계 아래이지만, 견고하고 유용한 성능을 얻습니다.

API 수치가 숨기고 있는 것

해당 차트에서 달러 금액으로 절대 나타나지 않는 세 가지 비용이 있으며, 이 세 가지 모두 저는 언젠가 한 번씩 고통을 겪었습니다.

VRAM 한계치는 경사로가 아니라 벽입니다. 모델은 맞거나, 맞지 않거나 둘 중 하나입니다. 3090에서 매끄럽게 돌아가는 27B 모델은 11GB 카드에서는 아예 로드조차 되지 않습니다. 경계선에서 "조금 더 느려지는" 중간 단계란 없으며, 그냥 실패할 뿐입니다. 당신이 할 수 있는 유일한 선택은 더 작은 모델을 쓰거나 더 큰 카드를 사용하는 것뿐입니다.

모델이 너무 클 때 MoE (Mixture of Experts) 모델을 시스템 RAM으로 넘기는(Spilling) 것이 명백한 탈출구처럼 보일 수 있습니다. 하지만 그렇지 않습니다. 두 개의 1080 Ti를 사용하여 35B-A3B 모델로 테스트했을 때 약 17 tok/s가 나왔습니다. 전문가(experts) 모델이 시스템 RAM으로 mmap(memory-mapped)되는 순간, 전체 시스템은 메모리 대역폭 제한(memory-bandwidth-bound)에 걸리게 되며, CPU 성능이 거의 한계에 도달합니다. 파라미터 수(parameter count)만 보고 판단하는 것과는 달리, VRAM에 완전히 상주하는 12B 모델이 메모리를 넘겨 사용하는 35B 모델보다 훨씬 더 빠릿하게 느껴지는 경우가 많습니다.

3090의 함정은 긴 컨텍스트(long context)에서 나타납니다. 생성 속도는 빠르지만, 프롬프트 처리(prompt processing)는 급격히 느려집니다. 64k 토큰 환경에서는 생성이 시작되기도 전에 첫 번째 토큰이 나오는 데 약 59초가 걸렸습니다. 이러한 지연 시간(latency)은 "달러당 토큰 수"라는 수치에는 절대 나타나지 않으며, 검색(retrieval) 작업이 많은 환경에서는 매우 뼈아프게 다가오는 요소입니다.

그렇다면 셀프 호스팅(Self-hosting)할 가치가 있을까요?

만약 당신이 토큰당 가장 저렴한 지능(intelligence-per-token)을 쫓고 있다면, 차트의 내용은 맞으며 대답은 대개 "아니오"입니다. GLM-5.2와 같은 모델을 사용하는 저렴한 API는 달러당 순수 성능 면에서 당신의 3090을 압도할 것입니다. 왜냐하면 당신은 프롬프트 사이의 유휴 시간(idle time) 동안 카드를 유지하기 위해 비용을 지불할 필요가 없으며, 27B 대신 744B 모델을 사용하게 되기 때문입니다.

셀프 호스팅(Self-hosting)은 비용 싸움에서 승리하기 위한 나쁜 방법입니다. 셀프 호스팅을 통해 얻는 것은 차트의 축이 결코 측정하지 못하는 것들입니다. 즉, 데이터가 기기 내에 머물고, 오프라인으로 실행되며, 미세 조정(fine-tune)과 버전 고정(pin versions)이 가능하며, 그 누구도 당신의 발밑에서 모델을 폐기(deprecate)할 수 없다는 점입니다. 마지막 항목은 들리는 것보다 덜 추상적입니다. MIT 라이선스 하에 이미 당신의 디스크에 놓여 있는 가중치(weight)는, 나중에 그 누구도 가격을 재책정하거나, 은퇴시키거나, 지역 제한(region-lock)을 걸 수 없는 버전입니다. 이것이 바로 오픈 모델 출시가 단순히 더 저렴한 API가 아니라 일종의 보험(insurance)으로 거론되기 시작한 이유 중 하나입니다. 저 또한 정확히 그 이유 때문에 제 논문들을 대상으로 로컬 연구 보조원(research assistant)을 실행하며, 그 용도로는 "프런티어(frontier) 모델보다 한 단계 아래" 수준이라도 완전히 충분합니다. 당신이 비용을 지불하는 대상은 바로 그것입니다 — 프라이버시, 제어권, 그리고 누구도 당신에게서 빼앗아 갈 수 없는 버전 말입니다. 토큰당 비용(per-token math) 계산은 부차적인 문제입니다.

이것이 바로 차트가 생략한 부분입니다. API를 사용할 때 오픈 모델이 가격 면에서 승리한다는 점에는 이견이 없습니다. 하지만 가중치가 당신의 카드에 올라가는 순간, 당신은 성능 등급이 한 단계 낮아지고, VRAM 한계에 부딪히며, 긴 프롬프트(long prompts)에서는 속도가 느려집니다. 집에서 셀프 호스팅을 하는 사람은 한 달에 몇 달러를 아끼기 위해 그 일을 하는 것이 아닙니다. 그들은 가중치가 자신의 소유이며, 누구도 가격을 재책정하거나 은퇴시킬 수 없는 디스크 위에 놓여 있기 때문에 그 일을 하는 것입니다.

주의 사항 (Caveats)

이것은 제가 실제로 소유하고 있는 두 개의 카드, 즉 11GB Pascal과 24GB Ampere이며, 단일 GPU 환경에서 Ollama를 사용하였고, 이전 포스트에서 언급한 특정 양자화(quants) 모델들을 사용했습니다. 저는 4090이나 5090, 또는 멀티 카드 시스템(multi-card rig)을 가지고 있지 않으므로, 해당 등급에 대해서는 말할 수 없으며 추측하지도 않을 것입니다. 대형 MoE(Mixture of Experts) 모델들의 크기는 대략적인 수치입니다. 인용할 경우 현재의 모델 카드(model cards)를 확인하십시오. 수치는 저의 실제 실행 결과이며 안정적이지만, 소수점 단위까지 정확하다고 주장하는 것은 아닙니다.