AI 구독은 저렴한가? — 가격과 쿼터(Quota)의 이중 구조 - Insights | Molayo

연재 「정액제의 이면 — API와 구독의 가격 차이로 읽는 프론티어 모델의 경제 구조」 제1회.

먼저 내 손안의 실측 데이터부터 시작하고 싶다. Claude Code의 /usage와 /cost가 보여준 어느 한 세션의 해부도이다.

Total cost: $2.16
Total duration (API): 3m 28s
Total duration (wall): 4h 16m 49s
...

숫자들이 몇 가지 사실을 고백하고 있다.

첫째, 이것은 금요일의 표시이다. 주간 쿼터(Quota)의 70%가 주의 중간쯤에 이미 사라졌다. 둘째, 벽시계(Wall clock) 기준 4시간 17분의 세션 중 모델이 실제로 추론하고 있었던 시간은 3분 28초였다. 나머지는 내가 다른 작업을 하고, 에이전트가 간헐적으로 문맥(Context)을 돌리고 있었던 시간이다. 셋째, 성과는 코드 35줄. 1줄당 약 6센트의 추론이 실행된 계산이 된다.

그리고 이 $2.16은 내가 지불한 금액이 아니다. API 가격으로 환산했을 때의 참고치이다. 나는 월 정액 플랜 내에서 이것을 사용하고 있다.

여기에 본 연재의 출발점이 되는 구조가 있다. 정액 플랜 안에서는 이 소비가 울타리(쿼터) 안쪽에서 저렴하게 허용된다. 동일한 소비를 API로 구성하면 1세션마다 $2.16이 가차 없이 과금된다. 즉, 현재의 가격 체계는 다음과 같이 읽을 수 있다.

"인간이 프론트(Front)에 선다면, 울타리 안쪽에서 할인된 가격으로 쓰게 해주겠다. 울타리를 넘어서는 속도로 쓴다면 기다려라. 기계에組み込む(組み込む, 통합)한다면 종량제로 정가를 내라."

가격의 벽과 쿼터의 울타리. 이 이중 구조가 왜 존재하는가. 본 연재는 6회에 걸쳐 이를 파헤친다.

1차 정보는 반드시 공식 가격 페이지에서 확인하기 바란다. 본 연재의 수치는 모두 집필 시점의 것이다.

구독(Subscription, 개인)

플랜	월액	개요
Pro	$20	표준. Claude Code 이용 가능
...

모두 "무제한 사용"이 아니라, 5시간 로링 윈도우(Rolling window)와 주간 이용 상한(쿼터)이 붙는다.

API (100만 토큰당, 표준 레이트)

모델	입력	출력	캐시 읽기
Fable 5	$10.00	$50.00	$1.00
...

수식어로서 배치(Batch) 처리 시 50% 할인, 프롬프트 캐시(Prompt Cache)는 읽기가 입력의 약 1/10(쓰기는 약 1.25배)이다. 또한 최상위 모델인 Fable 5는 집필 시점에서 구독 플랜 내의 제공 조건이 이행기에 있으며, 기간 한정 제공 후 종량제 크레딧제로의 이행이 공지되어 있다(확인 필요). 최상위 모델부터 차례대로 정액의 울타리 밖으로 밀려나고 있다 —— 이 움직임 자체가 본 연재 주제의 일부이다.

서두의 해부도로 돌아가 보자. $2.16의 내역을 API 레이트로 분해하면:

항목	토큰	단가($/MTok)	금액
신규 입력	3.3k	10	$0.03
...

주목해야 할 점은, **비용의 대부분이 "새롭게 생각한 양"이 아니라 "문맥을 운반한 양"**이라는 점이다. 신규 입력은 고작 3.3k 토큰. 반면 캐시의 읽기/쓰기는 70만 토큰을 넘어 비용의 60% 이상을 차지한다. 나의 최근 24시간 이용 통계에서는, 소비의 75%가 15만 토큰 초과의 컨텍스트(Context)에서 발생했고, 52%가 4세션 이상의 병렬 가동 중, 51%가 8시간 이상의 연속 세션에서 발생했다.

이것이 에이전트적 이용의 원가 구조이다. 인간의 채팅은 "짧은 문맥을 빠르게 읽는" 소비이지만, 에이전트는 "거대한 문맥을 유지한 채 인간이 보지 않는 시간에도 계속 돌아가는" 소비다. 벽시계 4시간 대비 API 시간 3분이라는 비율이 그것을 단적으로 보여준다. 이 구조의 의미는 제2회에서 본격적으로 다룬다.

그렇다면 정액 플랜의 "할인율"은 어느 정도인가. $200(Max 20x)를 API 구매력으로 환산해 본다.

전액을 Fable 5의 신규 입력에 사용한다면
20 MTok
전액을 출력에 사용한다면
4 MTok
서두의 나의 세션(캐시 지배형의 전형적인 에이전트 이용) 형태라면
약 92세션분 —— 하루 3세션 상당

단, 정액 플랜 = "$200치 토큰"이 아니다. 정액제가 파는 것은 "쿼터"다. 당신이 소비할 수 있는 상한은 달러가 아니라 쿼터의 높이로 결정된다.

따라서 보조금의 배율은 다음 단계로만 실측할 수 있다.

/usage

와 /cost

즉, 주간 상한선에 도달하기까지의 누적 API 환산액을 기록한다. 그 금액 × 4.3이 당신의 플랜의 월간 쿼터(Quota) API 환산 가치이다.
보조금 배율 = 쿼터의 API 환산 가치 ÷ 월간 요금

배율이 1을 넘는다면 당신은 보조금을 받고 있는 것이다. 내 체감상, 에이전트(Agent)처럼 헤비하게 사용하는 유저의 배율은 명확히 1을 넘는다. 하지만 무한하지는 않다. 바로 울타리가 있기 때문이다.

여기서 첫 번째 평범한 설명을 검토해 보자. "B2B는 지불 의사가 높기 때문에 API 가격이 비싸다. 단순한 가격 차별(Price Discrimination) 아닌가?"

부분적으로는 맞다. 하지만 가격 차별설로는 울타리를 설명할 수 없다. 가격 차별이란 지불 의사가 있는 고객으로부터 더 많은 금액을 받아내는 기술이다. 반면 쿼터는 추가로 지불할 의사가 있는 정액제 고객의 소비를 거절하는 메커니즘이다. "더 쓰고 싶다, 돈은 내겠다"라고 말하는 고객에게 "기다려라"라고 말하는 가격 차별은 존재하지 않는다. 울타리는 가격 차별의 도구가 아니라, 다른 무언가를 강제하는 장치이다.

그 '무언가'란 바로 인간의 속도다. 5시간 윈도우(Window)와 주간 상한선은 인간이 화면 앞에서 읽고 쓰는 속도라면 거의 도달할 수 없는 높이로 설정되어 있다. 도달하는 것은 나처럼 여러 세션을 병렬로 8시간 동안 돌리는 이용, 즉 에이전트적인 이용뿐이다. 울타리의 높이 그 자체가 "이 할인 혜택은 인간의 속도로 사용하는 자를 위한 것이다"라는 선언인 셈이다.

이렇게 퍼즐이 맞춰진다. 가격 체계는 이중 구조를 가진다:

가격의 벽: API는 종량제 정가. 임베디드(Embedded) 이용에는 할인이 없다.
쿼터의 울타리: 정액제는 할인되지만, 인간의 속도를 초과하는 소비를 구조적으로 차단한다.

왜 이런 이중 구조인가? 적어도 세 가지 가설을 세울 수 있다.

가설 1: 비용 구조설 (제2회). 정액제의 보험 수리(Actuarial science)는 "소비량 분포에 천장이 있다"는 것을 전제로 한다. 인간의 인지에는 생리적 천장이 있지만, 에이전트에게는 없다. 쿼터의 울타리란 천장 없는 소비를 보험 수리 범위 안으로 밀어 넣는 **인공적인 위장(Stomach)**이다.

가설 2: 인지 흡수설 (제3회). 인간의 주의, 습관, 문맥의 축적 그 자체가 상품이다. 프론트엔드에 서는 이용은 해자(Moat)를 만들기 때문에 보조금을 줄 가치가 있지만, API 너머의 코드는 습관을 갖지 않는다. 보조금은 인지가 축적되는 쪽에만 지급된다.

가설 3: 지대 회수설 (제4회). 에이전트 추상화가 진행되면 모델의 이름은 사라진다. 지명된 수요(Named demand)가 남아 있는 동안 API를 통해 최대한 뽑아낸다—시한부 지대(Rent) 회수다. 그리고 "그렇게 비싸면 못 쓴다"라는 수요 측의 벽과의 공방이다.

제5회에서는 위험성 내러티브와 한정 공개의 경제학을, 제6회에서는 "가치와 조직의 결합"이라는 제도 문제를 다룬다. 세 가지 가설은 배타적이지 않다. 동일한 이중 구조를 비용, 수익, 전략이라는 세 측면에서 바라본 것이라는 것이 연재 전체의 관점이다.

정액 플랜 위에 에이전트 기반을 구축하는 것은 리스크가 있다는 차원을 넘어, 애초에 불가능하다. 서두의 /usage가 보여주듯, 금요일 시점에서 이미 주간 쿼터의 70%가 사라져 있다. 상시 가동되는 에이전트를 돌리면 쿼터는 주 초반에 바닥난다. 정액제 플랜은 처음부터 그런 방식의 사용을 상정한 틀이 아니다.

따라서 정리는 다음과 같다. 정액제 울타리 안에 남을 수 있는 것은 인간이 주도하는 이용까지다.

울타리 안쪽 (인간 주도의 이용). 정액제 범위를 "인간이 주도하는 대화적 이용 + 간헐적인 소규모 자동화"까지로 한정한다. 구체적으로는: 세션의 큐(Queue)화 (병렬성을 제한함—모든 세션은 동일한 울타리를 공유한다), /compact와 /clear를 통한 문맥(Context) 절약 (15만 토큰을 초과하는 문맥은 캐싱되어 있더라도 비용이 많이 든다), 주간 쿼터 잔량을 확인하며 세우는 작업 계획. 아이러니하게도 /usage 화면 자체가 이들을 권장하고 있다.

그리고 상시 가동, 병렬, 장시간 루프를 전제로 하는 에이전트 기반에는 실질적으로 두 가지 선택지밖에 남지 않는다.

모델 종량제 (API). 울타리 밖의 세상으로 이주한다. 그 순간, 서두의 세션당 $2.16이 실비가 된다. 이 이주를 위한 경제적 계산—언제, 어떤 워크로드(Workload)를 옮길 것인가—을 위해 본고의 실측 절차가 존재한다.
Local LLM. 쿼터에도 API 가격에도 얽매이지 않는, 자신의 로컬 추론. 품질 요구사항이 허용하는 워크로드부터 퇴출시킨다. 울타리 높이 변경(과거에 여러 번 있었던 일)에 대한 유일한 구조적 헤지(Hedge)이며, 제6회에서 논할 "누출의 수혜자" 측에 서는 선택이기도 하다.

그리고 모든 전제로서: 측정하라. 자신의 소비 API 환산액, 문맥 길이의 분포, 병렬도, 쿼터 도달 속도. 이것들을 파악하지 않은 채 정액제 플랜 위에 일일 워크플로우를 의존시키는 것은 위험하다.

다음 회차는 가설 1. 쿼터(Quota)라는 울타리의 정체 — "인간의 읽는 속도가 천장(Ceiling)이다"라는 비용 구조에 관한 이야기로 들어갑니다.

AI 구독은 저렴한가? — 가격과 쿼터(Quota)의 이중 구조

요약

핵심 포인트

댓글