Claude Sonnet 5의 새로운 토크나이저: 프롬프트당 41% 더 많은 토큰 사용
요약
Claude Sonnet 5 출시와 함께 새로운 토크나이저가 도입되어, 동일 텍스트 기준 이전 모델보다 약 41% 더 많은 토큰을 사용하게 됩니다. 이로 인해 프롬프트당 비용, 컨텍스트 윈도우 여유 공간, 속도 제한(Rate limits) 등에 변화가 생기므로 주의가 필요합니다.
핵심 포인트
- 새로운 토크나이저로 인해 동일 영어 텍스트 기준 입력 토큰이 약 41% 증가함
- 토큰 증가로 인해 프롬프트당 실제 비용과 속도 제한 소진 속도가 빨라짐
- 컨텍스트 윈도우 내 실제 텍스트 수용량이 약 41% 감소함
- 캐싱 최소 기준(1,024토큰) 충족이 쉬워져 캐시 적격성이 높아질 수 있음
claude-sonnet-5가 Synthorai 게이트웨이에 출시되었으며, 현재 매우 저렴합니다: 입력/출력 토큰 100만 개당 $2 / $10로, 이는 Opus 4.8보다 2.5배 저렴하며 Sonnet 4.6보다도 낮습니다. 이 가격이 유지되는 동안 즐기시기 바랍니다. 이는 2026년 8월 31일까지 제공되는 출시 기념 가격이며, 9월 1일부터는 Sonnet 4.6과 동일한 $3 / $15로 요금이 복귀합니다.
Claude 라인을 대상으로 캐싱 (caching)을 수행하는 경우, 캐싱 및 TTL 계약은 그대로 유지됩니다. 주의 깊게 살펴봐야 할 부분은 비용이며, 그 이유는 Sonnet 5가 토큰을 계산하는 방식 때문입니다. Sonnet 5에는 동일한 영어 텍스트를 Sonnet 4.6보다 약 **41% 더 많은 입력 토큰 (input tokens)**으로 변환하는 새로운 토크나이저 (tokenizer)가 탑재되어 있으며, 토큰 수는 비용 지불 및 제한의 기준이 됩니다. 표기된 가격은 청구서의 절반에 불과합니다.
코드 변경이나 품질 문제를 논하기 전에, 이러한 토큰 변화가 영향을 미치는 요소는 다음과 같습니다:
- 프롬프트당 비용 (Cost per prompt). 표준 요율에서 동일한 영어 프롬프트는 Sonnet 4.6보다 약 41% 더 많은 비용이 발생합니다. 동일한 텍스트가 동일한 토큰당 가격에서 더 많은 토큰으로 청구되기 때문입니다.
- 모든 토큰 기반 추정치. 4.6을 기준으로 산정된 호출당 예산이나 로컬 토크나이저 (local-tokenizer) 카운트는 Sonnet 5에서 약 40% 정도 낮게 측정됩니다. 로컬 추측이 아닌 실제
usage를 측정하십시오. - 컨텍스트 윈도우 여유 공간 (Context-window headroom). 동일한 문서가 윈도우의 약 41%를 더 차지하므로, 롱 컨텍스트 (long-context) 및 RAG 호출 시 요청당 더 적은 실제 텍스트가 포함됩니다.
- 속도 제한 (Rate limits). 동일한 워크로드에 대해 분당 토큰 제한 (tokens-per-minute cap)이 약 41% 더 빨리 소진되어 처리량이 감소합니다.
- 캐시 적격성 (작은 이점). 1,024토큰 최소 기준을 충족하기가 더 쉬워졌으므로, 4.6에서 그 기준을 약간 밑돌았던 접두사 (prefix)가 Sonnet 5에서는 캐싱 가능해질 수 있습니다.
게시물의 나머지 부분에서는 가격, 캐싱 경제성, 토큰 수 변화에 대해 구체적인 수치를 제시합니다.
가격, 캐싱, TTL, 그리고 토큰 수는 2026-07-01 기준
https://synthorai.io/(Anthropic-native /v1/messages)를 통해 측정되었습니다. 토큰당 가격은 실제 호출 시의usage비용에서 도출되었습니다. 도입기/표준 요금 및 8월 31일 만료 정보는 Anthropic의 발표 내용을 바탕으로 합니다. 인용하기 전에 본인의 프롬프트로 직접 재현해 보시기 바랍니다.
가용성 (Availability)
import os
from anthropic import Anthropic
...
model 필드만 교체하면 캐싱 경로의 다른 부분은 변경할 필요가 없습니다. cache_control의 작동 원리는 캐싱 튜토리얼에 설명되어 있으며, 캐시가 존재하는 아키텍처적 이유는 시리즈의 Part 1에서 확인할 수 있습니다.
가격: 현재는 저렴하지만, 9월에는 Sonnet 4.6의 요율로 복귀
일반(캐싱되지 않은) 호출의 usage 비용에서 도출된 게이트웨이의 토큰당 가격입니다:
| 모델 | 입력 ($/M) | 출력 ($/M) |
|---|---|---|
claude-sonnet-5 (도입기, 8월 31일까지) | $2.00 | $10.00 |
| ... |
도입기 요금은 실질적인 할인이며, Opus 4.8과 비교했을 때 이 이야기의 핵심적인 부분입니다. 표준 요금인 $3 / $15에서도 Sonnet 5는 Opus보다 저렴한 상태를 유지하며, 두 모델은 동일한 토크나이저 (tokenizer)를 공유하므로 (이에 대해서는 아래에서 자세히 설명) 두 가격대 모두에서 깔끔한 비교가 가능합니다.
Sonnet 4.6과 비교했을 때 이 할인은 일시적입니다. 9월 1일에는 정가(sticker price)가 동일해지므로, 현재 수치를 바탕으로 세운
캐싱 계약은 Claude 라인의 나머지 부분과 동일합니다. 안정적인 2.2K 토큰 접두사(prefix)를 사용하고, 호출마다 사용자 메시지를 변경하여 응답 레벨 캐시가 결과에 오염되는 것을 방지하는 콜드 라이트/웜 리드 시퀀스를 실행했습니다. 현재 도입 가격 기준의 웜 턴당 비용은 다음과 같습니다:
| 모델 | 콜드 턴 (캐시 쓰기) | 웜 턴 (캐시 읽기) | 콜드 → 웜 |
|---|---|---|---|
claude-sonnet-5 (도입가) | $0.0069 | $0.0017 | 4.0× |
| ... |
이 불변성은 Opus 라인 전반에 걸쳐 유지되는 것과 같습니다:
-
읽기 할인 ≈ 90%. 웜 캐시 읽기는 입력 가격의 약 10%만 비용이 들며, Anthropic이 문서화한
-
도입 기간 동안에는, 41%의 토큰 증가가 33% 더 낮은 요율($3 대비 $2)에 의해 상쇄되므로, 캐시되지 않은 동일한 프롬프트의 비용은 4.6 버전과 거의 비슷하며, 할인된 출력 덕분에 웜 턴 (warm turns)은 더 저렴하게 실행됩니다.
-
9월 1일부터는, 요율은 4.6 버전과 일치하지만 토큰 수는 그렇지 않습니다. 동일한 영어 프롬프트의 경우 Sonnet 5가 Sonnet 4.6보다 약 41% 더 많은 비용이 발생합니다 (이 접두사 기준 $0.0067 대 $0.0048). 이는 동일한 텍스트가 동일한 토큰당 가격에서 단순히 더 많은 토큰으로 계산되기 때문입니다.
Opus 4.8과 비교했을 때는 이러한 함정이 없습니다. 토크나이저(tokenizer)가 동일하기 때문에 (2,245 = 2,245), Sonnet 5는 도입 요율(2.5배 저렴)과 표준 요율(1.67배 저렴) 모두에서 명확하게 더 저렴합니다.
따라서 7월 청구서가 아닌 9월 청구서를 기준으로 예산을 세우십시오. 9월 1일에 토큰당 요율이 1.5배 상승하며, 더 높은 토큰 수는 이미 오늘부터 반영되어 있습니다. 또한, 여전히 이전 어휘 사전 (vocabulary)을 사용 중일 수 있는 로컬 토크나이저 대신, 실제 응답에서 cache_creation_input_tokens / cache_read_input_tokens를 읽어오십시오.
Sonnet 5 vs Opus 4.8: 지속적인 승리
이것은 출시 이후 영구적으로 바뀌게 될 비교 결과입니다. Sonnet 5와 Opus 4.8은 동일한 토크나이저를 공유하므로, 어떤 프롬프트에서도 토큰 수는 동일하며 비용 차이는 순수하게 요율에 의해 결정됩니다. 즉, 콜드 턴 (cold turns), 웜 턴 (warm turns), 입력 및 출력 모두에서 도입 가격으로는 2.5배 저렴하고, 표준 가격으로는 1.67배 저렴합니다. 현재 웜 캐시 턴 (warm cached turn)은 $0.0017 대 $0.0043이며, 9월에도 대략 $0.0026 대 $0.0043 수준입니다.
접두사 (prefix)가 매 턴 반복되는 대량 캐싱 에이전트 루프 (high-volume caching agent loop)의 경우, 그 격차는 복리로 커집니다. 결정은 평소와 같습니다. 자체적인 평가 (eval)를 수행하십시오. 만약 Sonnet 5가 품질 기준을 통과한다면, 비용 계산상 Sonnet 5가 8월뿐만 아니라 지속적으로 유리합니다. 만약 통과하지 못한다면, 동일한 캐싱 코드를 유지한 채 model 필드만 변경하여 Opus 4.8을 사용할 수 있습니다.
마이그레이션 체크리스트 (Migration checklist)
- ✅ 캐싱 코드 (Caching code)는 그대로 유지됩니다.
cache_control마커, 중단점(breakpoint) 개수,ttl: "1h",usage필드 이름 모두 Opus 라인과 동일합니다. - ✅ TTL 선택 사항이 그대로 유지됩니다. 실시간/세션 워크로드의 경우 5분, 간헐적인 작업 또는 일시 중단이 있는 에이전트 작업의 경우 1시간을 사용합니다.
- ✅ 할인 경제성 (Discount economics)이 그대로 유지됩니다. 읽기 약 90% 할인, 쓰기 약 1.25배 (5분), 쓰기 약 2배 (1시간) 할인됩니다.
- ⚠️ 예산에 9월 1일을 표시하세요. 도입 특가(intro rate)는 8월 31일에 종료되며, Sonnet 5는 $3 / $15로 전환됩니다. 가격이 적용되기 전에 1.5배 인상되는 단계를 모델링하세요.
- ⚠️ 토큰 수(4.6 또는 그 이전 버전 기준)를 다시 측정하세요. 동일한 텍스트에 대해 Sonnet 5에서는 약 41% 더 많은 토큰을 사용합니다. 표준 가격을 적용하면 동일한 프롬프트가 4.6보다 더 비싸지며, 더 저렴해지는 것이 아닙니다.
- ⚠️ 실시간
usage객체를 신뢰하세요. 이전 세대의 캐시된 추정치가 아닌, 응답에서*_input_tokens및cost를 읽으세요.
결론 (Bottom line)
Sonnet 5는 시간 대비 강력한 거래입니다. Opus 4.8과 비교했을 때, 즉시 적용 가능한 캐싱 경로와 함께 지속적으로 1.67–2.5배 더 저렴하며, 이는 품질이 결정적이지 않은 모든 Opus 워크로드에 대해 가장 먼저 평가해야 할 명백한 대상임을 의미합니다. Sonnet 4.6과 비교했을 때의 이점은 오직 도입 할인뿐입니다. 9월 1일부터 가격은 4.6과 동일해지며, 새로운 토크나이저(tokenizer)로 인해 동일한 프롬프트가 실제로 더 많은 비용을 발생시킵니다. 할인을 활용하되, 예산은 9월 수치를 기준으로 책정하고 재무 부서에 무엇인가를 약속하기 전에 실시간 usage 객체를 통해 토큰 수를 확인하십시오.
전체 캐싱 플레이북(caching playbook)을 보려면 How KV Cache & TTL Work로 시작하는 4부작 시리즈와 working Python tutorial을 참조하세요.
FAQ
Sonnet 5가 Sonnet 4.6보다 저렴한가요?
도입 기간 동안에만 그렇습니다. 2026년 8월 31일까지는 $2 / $10로, 4.6의 $3 / $15보다 저렴합니다. 9월 1일부터는 동일한 요율인 $3 / $15가 됩니다. 또한 동일한 텍스트가 Sonnet 5에서는 약 41% 더 많은 토큰으로 계산되기 때문에, 표준 가격에서는 동일한 프롬프트가 4.6에서보다 더 많은 비용이 듭니다.
도입 가격(intro price)은 언제 종료되나요?
Anthropic의 발표에 따르면 2026년 8월 31일에 종료됩니다. 9월 1일부터는 요율이 입력 토큰 100만 개당 $3, 출력 토큰 100만 개당 $15가 됩니다.
Sonnet 5는 Opus 4.8보다 얼마나 더 저렴한가요?
입력과 출력 모두 도입 가격 기준으로는 2.5배, 표준 가격 기준으로는 1.67배 더 저렴합니다. 두 모델은 동일한 토크나이저 (tokenizer)를 공유하므로 토큰 수는 일치하며, 두 가격대 모두에서 차이는 순수하게 요율 (rate)에서 발생합니다.
cache_control 코드를 변경해야 하나요?
아니요. 마커 구문 (marker syntax), 중단점 제한 (breakpoint limit), 그리고 TTL 옵션은 Opus 라인과 동일합니다. model 필드만 변경하면 되며 다른 것은 수정할 필요가 없습니다. Warm reads (캐시된 읽기)는 입력 가격의 약 10%이며, 1시간 쓰기 (1-hour write)는 캐시 미사용 시의 약 2배, 5분 쓰기 (5-minute write)는 약 1.25배입니다.
Sonnet 5를 Opus 4.8의 즉각적인 대체재 (drop-in replacement)로 사용할 수 있나요?
캐싱 (caching), TTL, 비용 측면에서는 마이그레이션 (migration)이 매우 간단하며 두 가격 모두에서 더 저렴합니다. 품질 측면에서는 직접 평가 (eval)를 수행하십시오. 저희는 직접 실행하지 않은 능력 벤치마크 (capability benchmarks)를 공개하지 않습니다. 모델 품질에 관한 주장(claims)은 Anthropic의 모델 카드 (model card)를 참조하십시오.
검증: 가격, 캐싱 (caching), TTL 및 토큰 수 수치는 2026-07-01에 Anthropic 네이티브 /v1/messages 경로를 사용하여 https://synthorai.io/에서 단일 테넌트 (single tenant)로 측정되었습니다. 토큰당 가격은 일반 호출의 usage 비용에서 도출되었습니다; 턴당 비용 (cost-per-turn)은 2.2K 토큰의 캐시된 접두사 (cached prefix)를 가진 소규모 샘플 중앙값이며 현재의 도입 가격을 반영합니다. 도입 가격 및 2026년 8월 31일 만료일은 Anthropic의 Sonnet 5 발표를 따릅니다; 할인/프리미엄 비율은 Anthropic Prompt Caching 문서를 통해 교차 확인되었습니다. 귀하의 수치는 프롬프트, 지역 및 부하에 따라 달라질 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기