【#2】정액제의 이면 — API와 구독 가격 차이로 읽는 프론티어 모델의 경제 구조 - Insights | Molayo

연재 「정액제의 이면」 제2회. 제1회에서는 가격의 벽(API 종량제)과 쿼터(Quota)의 울타리(정액제의 이용 상한)라는 이중 구조를 확정하고, 울타리의 정체를 「인공적인 위장」이라고 예고했다. 본고에서는 3가지 가설 중 가장 기계적이며, 가장 반론하기 어려운 설——비용 구조설(Cost Structure Theory)을 파헤쳐 그 예고를 회수한다.

연재 전체의 전제에 대하여. 본 연재는 2026년 6월 시점의 가격표·제공 조건을 바탕으로 한 구조 분석이다. AI 모델의 가격, 이용 상한, 제공 지역, 액세스 계층은 단기간에 변하기 때문에, 수치 그 자체가 아니라 가격 차이와 쿼터가 나타내는 구조를 읽는 것을 목적으로 한다. 실제로 제1회에서 가격 환산 단위로 사용한 Fable 5 / Mythos 5는 제1회 공개와 같은 2026년 6월 12일(일본 시간 13일), 미국 정부의 수출 관리 명령에 의해 모든 사용자 대상 액세스가 중단되었다(타 모델은 영향 없음). 이후 Fable 5는 「사용 가능한 최상위 모델」이 아니라, 집필 시점의 레이트 카드(Rate Card)에 기반한 환산 기준으로 읽히길 바란다. 이 사건의 상세한 내용은 별도 원고 「Anthropic 『Fable 5 / Mythos 5』 전면 중단 사건이 보여준 것」에 정리해 두었으며, 연재에서는 제5회의 조달 리스크론, 제6회의 제도론으로 연결하여 다룬다.

무한 리필 고기집, 스포츠 짐(Gym), 보험. 정액제 비즈니스는 모두 동일한 보험 수리(Actuarial Science) 위에 세워져 있다.

고객 1인당 소비량 분포에 상한이 있고, 평균 소비 비용이 정액 요금을 밑도는 것.

무한 리필 고기집이 성립하는 이유는 인간의 위장에 물리적 용량이 있기 때문이다. 대식가 고객은 적자지만, 그 소비량에도 생리적 상한이 있어 분포의 꼬리(Tail) 부분이 억제되어 있다. 짐(Gym)의 경우 「회비를 내고 오지 않는 고객」이 수익의 기둥이다.

LLM의 구독(Subscription)도 이와 같은 형태다. 그리고 여기서 「위장」에 해당하는 것이——**인간의 인지 대역폭(Cognitive Bandwidth)**이다.

채팅 UI를 통한 이용에서는 토큰(Token) 소비가 반드시 인간의 루프를 통한다. 읽고, 생각하고, 입력한다. 이 각 단계에는 생리적 상한이 있다.

주문량을 시산해 보자(가정은 명시할 테니, 각자의 값으로 대체해 주길 바란다).

인간의 독서 속도: 일본어로 매분 500~~800자 정도. 토큰 환산 시 대략 **매분 300~~600토큰** (문자에서 토큰으로의 환산은 모델과 토크나이저(Tokenizer)에 따라 다르므로, 여기서는 자릿수를 보기 위한 거친 근사치로 취급한다)
1일 실사용 시간: 아무리 헤비 유저라도 화면을 주시하며 읽고 쓸 수 있는 시간은 수 시간
입력(타이핑·음성): 독서 속도보다 훨씬 느림

가령 1일 4시간, 매분 500토큰을 계속 읽는 초인을 상정해도, 출력 소비는 월간 약 3.6 MTok(500 × 240분 × 30일)이다. 제1회에서 본 $200의 API 구매력(Fable 5의 출력 환산 시 약 4 MTok)에 매일 4시간 동안 오로지 읽기만 해서 겨우 가까워지는 정도다. 현실에서는 이해·조작·휴식이 끼어들기 때문에 인간의 소비는 이 천장에 상당히 강하게 묶인다. 쿼터의 울타리에 인간이 먼저 부딪히지 않는 것은 당연하다——울타리는 처음부터 인간의 생리적 상한보다 높은 위치에 세워져 있다.

즉 **채팅 UI는 그 자체로 레이트 제한 장치(Rate Limiting Device)**인 것이다. 인간의 망막과 주의력이 소비량 분포의 꼬리를 물리적으로 잘라내 준다. 그렇기에 정액제의 보험 수리가 성립한다. Anthropic도 OpenAI도 원가 계산상 「인간은 한 달에 이 이상 읽을 수 없다」는 것을 알고 가격을 책정하고 있다.

그런데 에이전트(Agent)는 읽지 않는다. 소비한다.

루프(Loop)한다: 자기 수정, 재시도, 재계획. 1개 태스크에 수십 번의 모델 호출은 흔한 일이다.
병렬(Parallel)화한다: 나의 Hermes Agent는 워커 레인(Worker Lane)을 여러 개 동시에 실행한다. 인간은 병렬로 읽을 수 없지만, 에이전트는 병렬로 소비할 수 있다.
잠들지 않는다: cron으로 돌리면 24시간 365일 작동한다.
컨텍스트(Context)를 품는다: 에이전트의 1회 호출은 툴 정의·이력·참조 문서를 포함하여 입력량이 수만~~수십만 토큰으로 불어난다. 인간이 채팅에 입력하는 수백 토큰과는 2~~3자릿수 차이가 난다.

인간의 소비량 분포가 「생리적 상한으로 꼬리가 잘린 분포」라면, 에이전트의 소비량 분포는 꼬리가 잘리지 않았다. 상한을 결정하는 것은 설계자의 의도(혹은 설계 미스)뿐이다. 무한 리필 식당에 위장이 없는 손님이 왔다, 라는 것이 이 문제의 정확한 기술이다.

정액 플랜상의 이용 제한——5시간 로링 윈도우(Rolling Window), 그리고 2025년 여름 이후에 도입된 주간 상한——은 이러한 관점에서 읽으면 깔끔하게 정합된다. 그것은 「꼬리가 잘리지 않은 분포」를 보험 수리 범위 안으로 밀어 넣기 위한, 인공적인 위장인 것이다.

이렇게 비용 구조설의 결론이 나온다.

구독형 (Subscription)이 저렴한 이유는, 인간의 인지 대역폭 (Cognitive Bandwidth)이 소비의 천장(Ceiling)을 보장해주기 때문이다.
API가 비싼 것(할인이 없는 종량제인 것)은, 천장이 보장되지 않는 이용에 대해 제공 측이 리스크를 반영할 필요가 없기 때문이다——
소비한 만큼만 지불하라, 그러면 꼬리(Tail)가 아무리 무거워도 제공 측은 손해를 보지 않는다

이 가설의 강점은 음모도 전략도 가정하지 않는다는 점이다. 순수하게 원가와 리스크의 산술만으로 가격 차이의 "방향"을 설명할 수 있다. 제1회에서 보았던 "도망치기 쉬운 API 고객에게 고가격을 책정한다"라는 역설도, 이 가설에서는 역설조차 아니다. 종량제란 가격 차별이 아니라, **리스크 이전 (Risk Transfer)**이기 때문이다.

다만, 이 가설만으로는 설명할 수 없는 잔여 영역이 있다. 왜 보조금을 주면서까지 프론트(Front)의 인간을 붙잡아두고 싶은지(제3회), 왜 API 가격은 원가에 비해 그토록 높은 마진을 붙일 수 있는지(제4회). 비용 구조설은 토대일 뿐 전체는 아니다.

여기서부터가 본고의 본론이라고 해도 좋다. 에이전트 (Agent)에게 천장이 없다면, 천장을 만드는 것은 당신의 업무이다.

인간이 프론트에 서는 시스템에서는 비용 폭주가 일어날 수 없었다. 인간이 읽기를 멈추면 소비도 멈췄기 때문이다. 에이전트 시스템에서는 이 자연적인 안전장치가 해제되어 있다. 나는 이렇게 생각한다——비용 폭주는 버그가 아니라, 천장을 설계하지 않은 사양 결함 (Specification Defect)이다.

구체적으로, 에이전트 사양서에 다음을 필수 항목으로 넣어야 한다.

루프 상한 및 재귀 깊이 제한 (Recursion Depth Limit). 자기 수정은 몇 회까지, 서브 태스크 (Sub-task) 분해는 몇 단계까지인가. 상한 도달 시의 동작(실패로 보고 / 인간에게 에스컬레이션)도 사양의 일부-
예산 가드 (Budget Guard). 1 태스크당 상한 금액 (또는 토큰 수). 초과하면 정지. 이것은 try-catch와 동급의 기본 구문이라고 생각하는 것이 좋다-
정지 조건의 명문화. "언제 생각을 멈출 것인가"는 "무엇을 생각할 것인가"와 동일한 무게를 가진 사양이다. 성공 조건뿐만 아니라, 중단 조건(Cut-off condition)을 작성하라-
토큰 관측성 (Token Observability). 레인(Lane)별·태스크별 소비를 측정한다. Hermes에서는 레인별로 토큰 소비를 기록하고 있는데, 이는 사치품이 아니라 스모크 디텍터 (Smoke Detector)이다. 관측 없는 자동화는 계량기 없는 가스 계약과 같다-
단가의 계층화. 모든 태스크에 최상위 모델을 사용하는 설계는 모든 직원을 임원 급여로 고용하는 것과 같다. 트리아지 (Triage)는 Haiku 급, 본 처리(Main processing)는 Sonnet 급, 최종 판단만 Opus 급——인간 조직이 계층을 갖는 것과 같은 이유로, 에이전트도 모델 계층을 가져야 한다. 배치 API (Batch API, 입출력 50% 할인)와 프롬프트 캐싱 (Prompt Caching, Anthropic에서는 캐시 읽기가 통상 입력의 약 1/10)이 효과적인 지점을 파악하는 것도 포함하여. 단, 할인율은 프로바이더, 모델, 캐시 히트(Cache hit) 조건에 따라 달라지므로 반드시 각사의 현행 조건을 확인할 것

인간의 인지라는 무료의 제한 요인 (Rate-limiting factor)을 제거한 이상, 제한 요인은 명시적으로 구현해야 한다. 이것이 비용 구조설로부터 도출되는 가장 구체적인 설계 규율이다.

다음 회차는 가설 2, 인지 흡수설. "왜 원가 이하로 손해를 보면서까지 인간을 프론트에 붙잡아두고 싶은가"——주의(Attention)의 경제학에 대해 다룬다.

Insights

【#2】정액제의 이면 — API와 구독 가격 차이로 읽는 프론티어 모델의 경제 구조

요약

핵심 포인트

댓글

Vercel Container Registry 리포지토리를 팀 간에 공유하기

15분 만에 끝내는 SolonCode: 설치, 모델 설정, 그리고 첫 번째 리뷰 가능한 Diff 생성하기

trust_remote_code는 항상 보호 장치가 아닌 모험이었다

Chain-of-Draft: 추론 과정은 유지하고, 서술은 버리고, 추론 토큰을 약 80% 절감하기

Vercel Container Registry 리포지토리를 팀 간에 공유하기

15분 만에 끝내는 SolonCode: 설치, 모델 설정, 그리고 첫 번째 리뷰 가능한 Diff 생성하기

trust_remote_code는 항상 보호 장치가 아닌 모험이었다

Chain-of-Draft: 추론 과정은 유지하고, 서술은 버리고, 추론 토큰을 약 80% 절감하기