토크나이저 세금: 가격 변동 없이 청구 금액이 올라가는 이유

원래 TierUp 블로그에 게시되었습니다. 요금표의 변화 없이 LLM 청구 금액이 12~27% 상승하는 사례 연구입니다.

요금표(rate card)는 AI 인보이스에서 가장 덜 중요한 숫자입니다. 실제로 지불하는 금액은 가격 × 토큰(tokens)이며, 제공업체는 첫 번째 요소인 가격보다 두 번째 요소인 토큰을 조절할 수 있는 훨씬 더 많은 방법을 가지고 있습니다. 가장 명확한 최근 사례는 Claude Opus 4.7입니다.

동일한 가격, 더 많은 토큰

올봄 Opus 4.7이 출시되었을 때, 표시 가격은 변하지 않았습니다. Finout의 가격 분석에서 언급했듯이, Anthropic이 Opus 4.1 이후 유지해 온 것과 동일한 입력 100만 토큰당 $5, 출력 100만 토큰당 $25의 요율을 유지했습니다. 변한 것은 토크나이저(tokenizer)였습니다. Anthropic의 자체 문서에 따르면, 새로운 토크나이저는 동일한 텍스트에 대해 1.0~1.35배 더 많은 토큰을 생성하며, 코드, 구조화된 데이터(structured data), 그리고 비영어권 텍스트의 경우 그 수치가 상한선에 도달합니다.

독립적인 측정 결과에 따르면, 공식적인 범위는 오히려 보수적이었던 것으로 보입니다:

ClaudeCodeCamp의 측정 포스트에 따르면, 기술 문서(technical documentation)에서 1.47배, 실제 CLAUDE.md 파일에서 1.445배의 증가를 발견했습니다. 이는 문서화된 상한선을 상회하는 수치이며, 실제 코딩 세션 콘텐츠 전반에 걸친 가중 평균은 약 1.325배였습니다. 토큰당 문자 수(Characters-per-token)는 영어 산문(English prose)의 경우 4.33에서 3.60으로, TypeScript의 경우 3.66에서 2.69로 감소했습니다.
OpenRouter의 분석 (2026년 4월 27일 발행)에 따르면, 프롬프트 크기 구간(prompt-size buckets) 전반에 걸쳐 **32~45%의 토큰 인플레이션(token inflation)**이 측정되었으며, 이는 대부분의 워크로드에서 실제 비용이 12~27% 증가함을 의미합니다. 흥미로운 예외 사항으로는 2K 토큰 미만의 프롬프트는 약 1.6% 더 저렴하게 나타났으며, 프롬프트 캐싱(prompt caching)이 매우 긴 컨텍스트에서의 인플레이션 상당 부분을 상쇄했습니다 (128K+ 구간에서 추가된 토큰의 93%는 캐시 읽기(cache reads)였습니다).
ClaudeCodeCamp의 엔드 투 엔드(end-to-end) 추정치: Opus 4.6에서 약 $6.65가 들었던 전형적인 80턴 코딩 세션은 4.7에서 $7.86~$8.76이 소요됩니다. 즉, 동일한 요금표(rate card) 기준임에도 20~30% 증가한 것입니다.

공정하게 말하자면, 이것은 몰래 진행된 가격 인상은 아니었습니다. Anthropic은 해당 범위를 문서화하고 근거를 제시했습니다. ClaudeCodeCamp의 글에 인용된 설명에 따르면, 더 세밀한 토큰(finer-grained tokens)은 문자 그대로의 지시 이행(instruction-following) 능력과 도구 호출(tool-call) 정밀도를 향상시킵니다. 여러분은 달러당 더 나은 모델을 사용하게 되는 것일 수도 있습니다. 하지만 만약 여러분의 예산 모델이 "가격 불변 = 비용 불변"이라고 가정했다면, 이제 그 가정은 최대 4분의 1까지 틀리게 됩니다.

또 다른 숨겨진 승수들

토크나이저 세금은 하나의 가족 구성원일 뿐입니다. 이 중 어느 것도 가격 변동으로 나타나지는 않지만, 모두 여러분이 지불하는 금액을 변화시킵니다.

출력 프리미엄 (The output premium). 주요 모델들은 모두 입력 대비 출력에 대해 배수(multiple)를 적용하여 비용을 청구합니다. 주요 가격 추적기(저희의 가격 요약 정리를 참조하세요)에 따르면, Opus 4.7과 Sonnet 4.6에서는 5배($25 대 $5, $15 대 $3), GPT-5.5와 Gemini 3 Flash에서는 6배의 차이가 발생합니다. Finout의 설명처럼, 바로 이 배수 때문에 출력 토큰의 증가가 입력 토큰의 증가보다 더 중요합니다. 모델이 조금 더 수다스러워지면(더 긴 설명, 더 장황한 사고 사슬 (Chain-of-thought), 더 큰 도구 호출 (Tool-call) 페이로드 등) 가격 공지 없이도 여러분의 청구 금액은 올라갑니다.

긴 컨텍스트 추가 요금 (Long-context surcharges). CloudZero의 가격 데이터에 따르면, Gemini 3.1 Pro는 200K 컨텍스트까지는 $2/$12를 청구하지만, 이를 초과하면 $4/$18를 청구합니다. 비대해진 RAG 파이프라인으로 인해 이 임계값을 넘어서면 한계 입력 비용 (marginal input rate)이 두 배로 뛰게 됩니다. 이 역시 공표된 가격의 변경 없이 발생합니다.

모델 업그레이드 시 캐시 무효화 (Cache invalidation on model upgrades). 프롬프트 캐싱 (Prompt caching)은 현재 이용 가능한 가장 큰 합법적인 할인 혜택입니다 (캐시 읽기 시 최대 90% 할인). 하지만 캐시는 모델별로 분할되어 있습니다. 모델을 업그레이드하면 모든 캐싱된 접두사 (prefix)를 다시 작성해야 합니다. ClaudeCodeCamp의 기록에 따르면, 토크나이저가 변경된 후 다시 캐싱하는 접두사는 이전보다 1.3~1.45배 더 커집니다. 매 마이그레이션 이후에는 비용이 많이 드는 '콜드 스타트 (cold-start)' 주간을 예산에 반영해야 합니다.

재시도 및 잘림 (Retries and truncation). 실패하거나 잘린(truncated) 호출을 재시도하면 두 번 모두 전체 비용이 발생합니다. 에이전트 루프 (agent loops) 내에서 하나의 불안정한 단계가 전체 체인을 다시 실행하게 될 경우, 이 산술적 계산은 매우 가혹합니다. 타임아웃 (Timeouts), 잘못된 형식의 도구 호출 (malformed tool calls), 그리고 최대 토큰 제한으로 인한 잘림 (max-token truncations)은 모두 과금 대상 이벤트입니다.

이에 대한 대처 방법

요청(Request)이 아닌 토큰(Token)을 측정하세요. 시간이 지남에 따라 작업당 토큰 수(tokens-per-task)를 추적하십시오. 이것이 토크나이저(tokenizer) 변경이나 점진적인 장황함(verbosity)을 포착할 수 있는 지표입니다. 달러 기준 대시보드는 후행 지표이며, 토큰 기준 대시보드는 선행 지표입니다.
모델을 업그레이드할 때마다 품질뿐만 아니라 비용도 재벤치마킹(Re-benchmark)하세요. 표준 평가 세트(eval set)를 실행하고, 모델 업그레이드 전후의 요청 횟수가 아닌 청구된 토큰 수를 비교하십시오.
출력을 제한하세요. max_tokens를 의도적으로 설정하고 간결한 출력 형식을 선호하십시오. 모든 출력 토큰은 입력 토큰 4~6개 분량의 비용과 맞먹습니다.
컨텍스트 임계값(context thresholds)을 주시하세요. 롱 컨텍스트(long-context) 가격 책정 구간에 근접해 있다면, 검색(retrieval) 범위를 줄이는 것은 미미한 절감이 아니라 단계적 함수(step-function) 수준의 큰 절감 효과를 가져옵니다.

요금표(rate card)는 마케팅입니다. 실제 청구서(bill)를 결정하는 것은 배수(multipliers)입니다. 여러 제공업체에 걸쳐 이러한 배수를 추적하는 것이 비용 인지적 라우팅(cost-aware routing)의 핵심이며, TierUp이 여러분 대신 수행하는 작업입니다.

Insights

토크나이저 세금: 가격 변동 없이 청구 금액이 올라가는 이유

요약

핵심 포인트

동일한 가격, 더 많은 토큰

또 다른 숨겨진 승수들

이에 대한 대처 방법

출처

댓글

AI 하네스로서의 E2E 테스트: 1시간의 수동 QA에서 10분으로

자체 수신함을 가진 에이전트로 '내 주문 어디 있나요?' 이메일에 답변하기

GitHub Copilot으로 워크플로우를 강화하는 11가지 방법

[릴리스] Supra-Router-51M - 아주 작은 프롬프트 라우팅 (Prompt Routing) 모델/오케스트레이터

자체 수신함을 가진 에이전트로 '내 주문 어디 있나요?' 이메일에 답변하기

GitHub Copilot으로 워크플로우를 강화하는 11가지 방법

[릴리스] Supra-Router-51M - 아주 작은 프롬프트 라우팅 (Prompt Routing) 모델/오케스트레이터