Claude Sonnet 5에 대한 수학적 분석: 60%의 Opus 할인 혜택은 실재하지만 일시적입니다.

Anthropic이 Claude Sonnet 5를 출시했고, 제가 본 의견들은 예측 가능한 수준이었습니다:

"Opus를 대체한다."

"그저 또 다른 Sonnet의 리프레시(refresh)일 뿐이다."

"벤치마크 차트를 보니 이제 모든 것을 Sonnet으로 라우팅(route)해도 되겠다."

이 중 두 가지는 틀렸습니다. 하나는 방향성 측면에서 맞지만, 모델의 명성(prestige) 대신 작업당 비용(cost per task)을 중요하게 생각할 때만 해당됩니다.

저는 Anthropic의 출시 포스트, Claude Platform 문서, GitHub의 Copilot 출시 노트, 그리고 가격 산출 방식을 살펴보는 데 시간을 할애했습니다. 제가 내린 결론은 간단합니다: Sonnet 5는 대부분의 코딩 에이전트(coding agents)를 위한 기본 Claude 모델이 되어야 하지만, 가장 높은 이해관계가 걸린 에스컬레이션(escalation) 모델이 되어서는 안 됩니다.

요약 (TL;DR)

아니요, Sonnet 5가 Opus 4.8을 보편적으로 대체하지는 않습니다. Anthropic은 Sonnet 5가 모든 작업이 아닌, 일부 고난도 작업에서 Opus와 대등할 수 있다고 말합니다.
네, 할인 혜택은 실재합니다. 도입 가격(Intro pricing)은 8월 31일까지 100만 토큰당 입력 $2 / 출력 $10입니다. Opus 4.8은 $5/$25입니다.
실제 수치는 60%입니다. 도입 기간 동안 Sonnet 5의 비용은 Opus 4.8의 40%이며, 이는 입력과 출력 모두에서 60%의 할인 혜택을 의미합니다.
8월 31일 이후에도 계산 방식은 바뀌지만 여전히 유효합니다. Sonnet 5는 $3/$15로 이동하며, 여전히 Opus 4.8보다 40% 저렴합니다.
저의 라우팅 규칙: 첫 번째 패스(first pass)에는 Sonnet 5를 사용하고, 에스컬레이션(escalation)에는 Opus 4.8을 사용하며, 작업이 프런티어급(frontier-tier) 비용을 정당화할 때만 Fable 5를 사용합니다.

실제로 출시된 것

Anthropic은 2026년 6월 30일에 Claude Sonnet 5를 출시했습니다.

중요한 부분은 단순히 모델만이 아닙니다. 바로 가용성(availability)입니다.

Anthropic의 출시 포스트에 따르면, Sonnet 5는 Claude Free, Pro, Max, Team, Enterprise, Claude Code, Claude Cowork 및 Claude Platform API를 통해 사용할 수 있습니다. GitHub 또한 6월 30일에 Copilot에서 Sonnet 5를 일반적으로 사용할 수 있도록(generally available) 했으며, 이는 이 모델이 단순히 API 대시보드에 머무는 것이 아니라 개발자 워크플로(workflows) 내에 직접 안착했음을 의미합니다.

이것이 중요한 이유는 현재 프런티어 계층(frontier tier)이 매우 혼란스럽기 때문입니다:

모델 / 제품	현재의 현실
Claude Fable 5	다시 온라인 상태가 되었으나, 비용이 높고 정책에 민감함
...
이것이 제가 더 요란한 프런티어 모델(frontier-model) 드라마보다 Sonnet 5에 더 주목하는 이유입니다.

이것은 개발자들이 이번 주에 실제로 사용할 수 있는 모델입니다.

내 생각을 바꾼 가격표

핵심은 가격입니다.

모델	입력 / 1M	출력 / 1M	의미
Claude Sonnet 5 도입기	$2.00	$10.00	2026년 8월 31일까지
...
도입 기간 동안 Sonnet 5는 단순한 소폭 할인이 아닙니다.

Opus 4.8보다 60% 더 저렴합니다.

8월 31일 이후에도 여전히 40% 더 저렴합니다.

최종 검토를 위해 Opus를 유지하더라도, 기본 경로(default route)를 변경하기에 충분한 수치입니다.

월 $300의 사례

적당한 수준의 에이전트(agent) 워크로드를 가정해 보겠습니다:

월간 입력 토큰 50M
월간 출력 토큰 10M

청구 금액:

Sonnet 5 도입기 = 50 * $2 + 10 * $10 = $200
Sonnet 5 표준 = 50 * $3 + 10 * $15 = $300
Opus 4.8 = 50 * $5 + 10 * $25 = $500

즉 다음과 같습니다:

경로	월간 비용	Opus 대비 절감액
Sonnet 5 도입기	$200	$300
...
만약 귀하의 팀이 매일 저장소(repos)를 대상으로 에이전트를 실행하고 있다면, 이것은 이론적인 이야기가 아닙니다.

이는 "더 안전하다"는 이유로 모든 일상적인 수정 사항을 Opus로 보내는 것과, 첫 번째 단계(first pass) 이후 에스컬레이션(escalation)이 필요할 때만 Opus를 사용하는 것 사이의 차이입니다.

출력 토큰의 함정

대부분의 에이전트 비용은 출력(output)에 숨어 있습니다.

코딩 에이전트는 단순히 질문 하나에 답하는 것이 아닙니다. 계획을 세우고, 편집하고, 설명하고, 재시도하고, diff를 열고, 테스트를 작성하며, 요약합니다.

한 번의 실행당 12K의 출력 토큰이 발생하고, 한 달에 5,000개의 에이전트 작업을 실행한다고 가정해 봅시다.

이는 다음과 같습니다:

12,000 출력 토큰 * 5,000회 실행 = 60,000,000 출력 토큰

출력 전용 비용:

Sonnet 5 도입기 = 60 * $10 = $600
Opus 4.8 = 60 * $25 = $1,500

입력 토큰을 계산하기 전부터 이미 월 $900의 차이가 발생합니다.

저는 그 $900를 추가적인 평가(evals), 더 나은 로깅(logging), 또는 실제로 Opus가 필요한 작업에 대한 에스컬레이션에 쓰는 편을 택하겠습니다.

사람들이 건너뛸 벤치마크 주의사항

Anthropic은 Sonnet 5가 Sonnet 4.6보다 개선되었으며, 일부 에이전트적 작업 (agentic tasks)에서는 더 높은 노력 (higher effort)을 투입할 경우 Opus 4.8과 대등한 성능을 낼 수 있다고 말합니다.

그 문장에는 두 가지 중요한 단어가 있습니다: 일부 작업 (some tasks).

Anthropic은 또한 BrowseComp와 관련된 방법론적 문제로 인해 출시 차트 중 하나를 수정했습니다. 저는 이것을 스캔들이라고 읽지 않습니다. 대신 경고로 읽습니다: 단 하나의 벤더 차트만 보고 라우팅 정책 (routing policy)을 구축하지 마십시오.

Sonnet 5에 대한 저의 벤치마크 정책은 다음과 같습니다:

테스트 세트	크기	통과 조건
버그 수정 (Bug fixes)	50개 작업	동일하거나 더 나은 승인된 패치율
...

저는 Sonnet 5가 모든 작업에서 Opus를 이길 필요는 없다고 생각합니다.

저는 Sonnet 5가 첫 번째 패스 (first pass)를 수행하기에 충분히 훌륭하면서도, 더 자주 실행할 수 있을 만큼 충분히 저렴하기를 바랍니다.

그것은 매우 다른 요구사항입니다.

"마이그레이션 해야 할까?" 결정 트리

제가 시작할 라우터는 다음과 같습니다.

def pick_claude_model(task):
    if task in [
        "repo_search",
...

이 기본 설정은 의도적으로 주관적입니다.

저는 비싼 모델로 시작해서 가끔씩 저렴한 모델을 시도하는 라우터를 원하지 않습니다.

저는 저렴하고 유능한 모델로 시작하여, 작업이 그럴만한 가치가 있을 때만 에스컬레이션 (escalates)하는 라우터를 원합니다.

제가 Sonnet 5를 사용하지 않을 곳

Sonnet 5가 모든 문제의 정답은 아닙니다.

워크로드 (Workload)	대신 사용할 것	이유
저렴한 요약 (Cheap summarization)	Haiku 또는 더 작은 경로	Sonnet은 과함 (overkill)
...

이것이 모든 새로운 모델 출시 때 발생하는 함정입니다.

사람들은 "더 좋아졌나요?"라고 묻습니다.

프로덕션 (production) 관점에서의 질문은 "어디에서 기본적으로 더 저렴해질 만큼 충분히 좋은가?"입니다.

Sonnet 5의 경우, 그 답은 대부분의 일상적인 에이전트 작업 (routine agent work)입니다.

제가 이번 주에 개발 팀을 운영한다면 할 일

만약 제가 모델 라우팅 계층 (model routing layer)을 소유하고 있다면, 다섯 가지를 할 것입니다.

일상적인 Claude 에이전트 트래픽을 Sonnet 4.6에서 Sonnet 5로 이동합니다.
평가 (evals)를 통과하는 경우, 1차 Opus 트래픽을 Sonnet 5로 이동합니다.
최종 검토 및 고위험 추론 (high-stakes reasoning)을 위한 에스컬레이션 경로 (escalation route)로는 Opus 4.8을 유지합니다.
승인된 패치율 (accepted patch rate), 재시도율 (retry rate), 출력 토큰 (output tokens), 그리고 인간 검토 시간 (human review minutes)을 추적합니다.
도입 가격 (intro price)이 만료되므로, 8월 31일 이전에 비용 모델 (cost model)을 다시 실행합니다.

마지막 항목이 중요합니다.

도입 가격은 마이그레이션 (migration)을 매우 당연한 선택처럼 보이게 만듭니다. 표준 가격 (standard price)도 여전히 좋아 보이지만, 절감액은 줄어듭니다.

날짜	입력 / 1M	출력 / 1M	라우팅 시사점 (Routing implication)
현재 ~ 8월 31일	$2	$10	공격적으로 마이그레이션 테스트 수행
8월 31일 이후	$3	$15	여전히 기본값으로 사용하되, 마진 (margins) 재확인

일시적인 할인 혜택이 측정되지 않은 영구적인 가설이 되도록 방치하지 마십시오.

더 큰 그림

Sonnet 5는 더 많은 팀이 주목해야 한다고 생각하는 하나의 패턴의 일부입니다.

프로덕션 (production) 환경에서 가장 중요한 모델은 종종 가장 강력한 모델이 아닙니다. 그것은 가용성 (availability), 비용 (cost), 지연 시간 (latency), 그리고 일반적인 경로 (common path)에 충분한 지능을 갖춘 최적의 조합을 가진 모델입니다.

그것이 바로 Sonnet 5가 중요한 이유입니다.

Fable 5는 더 극적입니다. GPT-5.6은 더 신비롭습니다. Gemini 3.5 Pro는 출시 주간에 아마도 많은 관심을 받을 것입니다.

하지만 Sonnet 5는 많은 실제 청구 비용을 낮출 수 있는 지루한 모델입니다.

그리고 비용을 낮춰주는 지루한 모델들이 프로덕션 트래픽을 차지하는 경향이 있습니다.

공개 사항 (Disclosure)

하나의 OpenAI 호환 엔드포인트 (OpenAI-compatible endpoint)를 통해 Claude, OpenAI, Gemini, DeepSeek, Qwen, GLM 및 기타 모델 간을 전환하고 싶다면, 그것이 대략 TokenMix가 하는 일입니다. 공개 사항: 저는 연구 측면에서 일하고 있습니다. 전체 인용된 분석 내용은 원문 기사에서 확인할 수 있습니다.

결론 (Bottom line)

Claude Sonnet 5는 당신의 위신을 세워주는 모델 (prestige model)이나 유일한 모델이 아니라, 당신의 기본 Claude 에이전트 경로 (default Claude agent route)가 되어야 합니다.

1차 코딩 (first-pass coding), 리팩토링 (refactors), PR 리뷰 (PR review), 저장소 Q&A (repo Q&A), 그리고 일상적인 도구 사용 (routine tool use)에 이를 사용하세요. 에스컬레이션 (escalation)을 위해 Opus 4.8을 남겨두세요. 프런티어 급 (frontier-tier) 비용을 정당화할 수 있는 좁은 영역을 위해 Fable 5를 유지하세요.

모델 출시는 훌륭합니다. 비용을 절감하는 것은 라우팅 규율 (routing discipline)입니다.

당신은 일상적인 코딩 에이전트 (routine coding agents)를 기본적으로 Sonnet 5로 라우팅하시겠습니까, 아니면 독립적인 평가 (independent evals)가 따라잡을 때까지 Opus에 계속 비용을 지불하시겠습니까?

Insights