
Claude Sonnet 5란 무엇인가? Sonnet 4.6에서 무엇이 바뀌었는지 벤치마크와 요금으로 살펴본 차세대 모델 🤖
요약
Anthropic이 공개한 차세대 모델 Claude Sonnet 5의 주요 특징과 이전 세대인 Sonnet 4.6과의 차이점을 분석합니다. 새로운 토크나이저 도입, 어댑티브 사고(Adaptive thinking) 기능, 그리고 벤치마크 성능 및 요금 체계를 상세히 다룹니다.
핵심 포인트
- Sonnet 4.6 대비 성능은 향상되었으나 가격은 동일하게 유지됨
- 모델이 난이도에 따라 사고량을 조절하는 어댑티브 사고 기능 도입
- 토크나이저 개선으로 약 30%의 토큰 효율성 증대
- max_tokens 설정 시 사고 토큰을 포함해야 함을 주의
Claude Sonnet 5는 Anthropic이 2026년 6월 30일에 공개한 Sonnet 패밀리의 차세대 모델입니다. 모델 ID는 claude-sonnet-5이며, 컨텍스트 윈도우(Context Window)는 1M 토큰, 최대 출력은 128k 토큰으로, 포지셔닝 측면에서는 "속도와 지능의 균형이 좋은 일상적인 주력 모델"이 됩니다.
이 기사에서는 Claude Sonnet 5가 이전 세대인 Sonnet 4.6으로부터 무엇을 바꾸었는지 정리합니다. 구체적으로는 기본 동작의 3가지 변경 사항, 약 30% 토큰이 늘어난 새로운 토크나이저(Tokenizer), 타사 모델을 포함한 벤치마크 비교, 그리고 요금입니다. 코드를 작성하는 분들에게도, API 비용을 산출하는 분들에게도 도움이 되도록 이행 시 주의사항까지 정리했습니다.
공식 스코어의 취급에 대해 한 가지 미리 말씀드립니다. 본 기사의 벤치마크 표는 Anthropic의 Transparency Hub나 각사의 공칭치를 바탕으로 한 제3자 집계이며, 동일한 환경에서 동일한 날에 다시 돌린 값은 아닙니다. 경향을 파악하는 자료로 읽어주시기 바랍니다.
먼저 전체적인 모습입니다. Claude의 모델은 크게 Opus(최고 성능), Sonnet(밸런스), Haiku(최속·최저가)의 3개 티어(Tier)로 나뉩니다. Sonnet 5는 그 중간인 Sonnet 티어의 최신 버전입니다.
공식 측은 Sonnet 5를 "Sonnet 4.6으로부터의 드롭인 교체(Drop-in replacement)"라고 표현하고 있습니다. 즉, 이미 Sonnet 4.6으로 작동하고 있는 코드는 모델 ID를 교체하는 것만으로 작동합니다. 다만 후술할 3가지 동작 변경 사항에 대해서는 확인이 필요합니다. 가격은 Sonnet 4.6과 동일한 상태를 유지하면서 능력이 향상된 것이 포인트입니다.
이 그림이 나타내는 것은, Sonnet 5가 "Opus 정도의 비용은 쓰고 싶지 않지만, Sonnet 4.6으로는 조금 부족하다"라는 중간 수요를 채우러 왔다는 점입니다. Anthropic 스스로도 Opus 클래스로 이전하지 않고 능력을 한 단계 높이고 싶은 워크로드(Workload)의 수용처로서 Sonnet 5를 위치시키고 있습니다.
공통 스펙을 표로 정리합니다.
| 항목 | Claude Sonnet 5 |
|---|---|
| 모델ID | claude-sonnet-5 |
| ... |
Sonnet 4.6으로부터의 차이점 중 코드에 영향을 주는 것은 다음 3가지뿐입니다. 이 부분만 파악하면 나머지는 모델 ID 교체로 끝납니다.
Sonnet 4.6에서는 thinking 필드를 붙이지 않고 요청하면 "사고 없음" 상태로 동작했습니다. Sonnet 5에서는 동일한 요청이 "어댑티브 사고(Adaptive thinking) 있음" 상태로 동작합니다. 모델이 태스크의 난이도에 따라 생각하는 양을 스스로 조절해 주는 동작입니다.
여기서 한 가지 함정이 있습니다. max_tokens는 "사고 + 응답 본문"의 합계에 대한 상한입니다. 4.6에서 사고가 없음을 전제로 max_tokens를 타이트하게 설정했을 경우, 5에서는 사고가 끼어드는 만큼 본문이 중간에 끊길 수 있습니다. 사고를 끄고 싶다면 명시적으로 thinking: {type: "disabled"}를 전달해 주세요.
thinking: {type: "enabled", budget_tokens: N}와 같이 사고 예산을 토큰 수로 고정하는 방식은 Sonnet 4.6에서는 권장되지 않았으나(Deprecated), Sonnet 5에서는 삭제되었습니다. 이를 보내면 400 에러가 반환됩니다. 대신 effort 파라미터가 포함된 어댑티브 사고를 사용합니다.
# Claude Sonnet 5에서는 지원되지 않습니다 (400을 반환합니다)
thinking = {"type": "enabled", "budget_tokens": 32000}
# 대신 이것을 사용합니다
...
temperature / top_p / top_k를 기본값 이외의 값으로 설정하면 400 에러가 발생합니다. 값을 생략하거나 기본값 그대로 보내는 것은 문제가 없습니다. 출력의 다양성이나 말투를 제어하고 싶을 때는 이러한 파라미터가 아니라 시스템 프롬프트(System Prompt)의 지시로 유도합니다. 이는 Opus 4.7에서 먼저 도입된 제약이 드디어 Sonnet 티어에도 적용되었다는 흐름입니다.
💡 어시스턴트 메시지 프리필(Assistant Message Prefill, 마지막을 assistant 턴으로 끝내는 방식)도 지원되지 않으며 400 에러가 발생합니다. 다만 이는 Sonnet 4.6부터 이어져 온 사항으로, 새로운 변경 사항은 아닙니다. 출력 포맷을 고정하고 싶을 때는 구조화된 출력(Structured Output, output_config.format)을 사용하세요.
의외로 놓치기 쉬운 부분은 토크나이저(Tokenizer)의 쇄신입니다. Sonnet 5는 새로운 토크나이저를 채택하고 있어, 동일한 입력 텍스트라도 Sonnet 4.6과 비교했을 때 약 30%(대략 1.0~1.35배) 더 많은 토큰이 생성됩니다.
요청(Request), 응답(Response), 스트리밍(Streaming) 형식은 변하지 않으므로 코드 자체를 수정할 필요는 없습니다. 하지만 토큰 수로 측정하거나 예산을 편성하고 있는 경우에는 모두 영향을 받게 됩니다.
여기서 주의해야 할 점은, 단가(토큰당 가격)는 그대로 유지되더라도 동일한 작업에 드는 실제 비용(Real Cost)이 달라질 수 있다는 점입니다. 예를 들어 4.6에서 1만 토큰이었던 프롬프트가 5에서는 1.3만 토큰으로 과금될 수 있습니다. 마이그레이션 시에는 과거 4.6에서 측정했던 토큰 수를 그대로 유용하지 말고, 토큰 카운트(Token Count) API에서 claude-sonnet-5를 지정하여 다시 측정하는 것이 확실합니다. max_tokens 설정 또한 예상 출력 길이에 딱 맞춰 설정해 두었다면, 조금 여유를 두는 것이 안전합니다.
이 부분이 많은 분의 관심사일 것이라 생각합니다. Sonnet 5가 다른 모델들과 어느 정도 차이가 있는지, 코딩 에이전트(Coding Agent) 계열의 벤치마크를 통해 살펴보겠습니다.
다시 한번 말씀드리지만, 아래 수치는 벤더(Vendor)의 공칭 값이나 제3자 집계 데이터를 모은 것으로, 동일한 하네스(Harness)와 동일한 날짜에 재실행한 결과가 아닙니다. 순위의 경향성을 파악하는 자료로 참고해 주세요. 비교 대상으로는 동일한 Sonnet의 이전 세대(4.6), 상위 모델인 Opus 4.8, 그리고 타사의 GPT-5.5와 Gemini 3.5 Flash를 나란히 배치했습니다.
| 벤치마크 | Sonnet 5 | Sonnet 4.6 | Opus 4.8 | GPT-5.5 | Gemini 3.5 Flash |
|---|---|---|---|---|---|
| SWE-bench Pro (실무적인 코드 수정) | 63.2 | 58.1 | 69.2 | 58.6 | 55.1 |
| Terminal-Bench 2.1 (터미널 에이전트) | 80.4 | 67.0 | 82.7 | 83.4 | — |
| OSWorld-Verified (GUI 조작) | 81.2 | 78.5 | 83.4 | — | — |
| Humanity's Last Exam (도구 미사용) | 43.2 | 34.6 | 49.8 | — | — |
| Humanity's Last Exam (도구 사용) | 57.4 | 46.8 | 57.9 | — | — |
이 표에서 읽을 수 있는 내용을 솔직하게 정리해 보겠습니다.
먼저, Sonnet 5는 이전 세대인 Sonnet 4.6을 모든 항목에서 앞서고 있습니다. 특히 Terminal-Bench 2.1은 67.0에서 80.4로 13포인트 이상 상승하여, 에이전트 및 터미널 조작 계열의 강화가 뚜렷하게 나타납니다. 공식 측에서 "가장 큰 향상은 코딩과 에이전트 태스크"라고 말하는 것은 이 수치들에 반영되어 있습니다.
다음은 타사 모델과의 비교입니다. SWE-bench Pro에서는 Sonnet 5(63.2)가 GPT-5.5(58.6)와 Gemini 3.5 Flash(55.1)를 앞섭니다. 반면 Terminal-Bench 2.1에서는 GPT-5.5(83.4)가 Sonnet 5(80.4)를 근소하게 앞섭니다. "에이전트 계열 코딩의 제왕"이라고 단정 지어 말할 수는 없으며, 평가하는 축에 따라 순위가 바뀔 수 있다는 것이 솔직한 평가입니다.
그리고 상위 모델인 Opus 4.8은 역시 많은 축에서 최상위권을 차지하고 있습니다. Sonnet 5가 Opus 4.8에 육박하는 장면도 있지만, 순수한 난제 해결 능력(Humanity's Last Exam 도구 미사용 시 43.2 대 49.8)에서는 아직 차이가 있습니다. 이는 가격 차이($3/$15 대 $5/$25)를 고려하면 타당한 포지셔닝입니다.
세이프티(Safety) 측면의 수치도 함께 기재합니다. Sonnet 티어에서 처음으로 실시간 사이버 보안 세이프가드(Cybersecurity Safeguard)를 탑재한 모델이므로, 안전 관련 지표도 은근히 중요한 역할을 합니다.
| 지표 (낮을수록 좋음) | Sonnet 5 | Sonnet 4.6 | Opus 4.8 | GPT-5.5 | Gemini 3.5 Flash |
|---|---|---|---|---|---|
| 프롬프트 인젝션 (Prompt Injection) 성공률 | 0.19% | 1.41% | 0.19% | 3.08% | 6.66% |
| MASK 허위율 (False Rate) | 3.1% | 13.3% | 6.1% | — | — |
프롬프트 인젝션 (Prompt Injection)에 대한 저항력은 Sonnet 5와 Opus 4.8이 동일한 수준(0.19%)으로, 타사 모델보다 한 자릿수 낮은 수준입니다. 에이전트(Agent)에게 외부 도구를 호출하게 하는 용도에서는 이 차이가 상당히 클 것으로 보입니다.
💡 사이버 보안 세이프가드(Cybersecurity Safeguard)에 걸릴 경우, 에러가 아니라
stop_reason: "refusal"
을 포함한 HTTP 200이 반환됩니다. response.content[0]을 곧바로 읽는 코드는 거부 시 인덱스 에러(Index Error)로 인해 중단될 수 있습니다. stop_reason을 먼저 체크하는 로직을 넣어두는 것이 안전합니다.
Sonnet 5에서는 사고의 깊이와 전체 토큰 소비량을 output_config의 effort로 제어합니다. Sonnet 티어로서 처음으로 xhigh를 지원했다는 점도 주목할 만한 토픽입니다.
대략적인 기준은 다음과 같습니다. 일상적인 사용은 기본값인 high로도 충분하며, 본격적인 코딩이나 에이전트 실행 시에만 xhigh로 올립니다. 반대로 채팅이나 단순 분류처럼 높은 지능을 요구하지 않는 처리는 low로 낮춥니다. 공식적으로는 Sonnet 5의 medium이 Sonnet 4.6의 high에 가까운 지능을, Sonnet 5의 high가 4.6의 max에 가까운 지능을 가진다고 상응하는 것으로 알려져 있습니다.
주의할 점은 Sonnet 5가 effort 설정을 매우 정직하게 따른다는 것입니다. low 설정에서 복잡한 문제를 던지면 사고가 얕은 상태로 답변이 돌아올 수 있습니다. 그럴 때는 프롬프트로 끈질기게 요구하기보다, 먼저 effort를 high나 xhigh로 올리는 것이 빠른 길입니다.
요금은 Sonnet 4.6과 동일하게 유지되어, 입력 100만 토큰당 $3, 출력 100만 토큰당 $15입니다. 또한 2026년 8월 31일까지 도입 가격이 적용되어 입력 $2 / 출력 $10가 됩니다. 9월 1일부터는 표준 가격으로 돌아갑니다.
| 모델 | 입력 (per 1M) | 출력 (per 1M) | 비고 |
|---|---|---|---|
| Sonnet 5 (도입 가격) | $2 | $10 | 2026년 8월 31일까지 |
| Sonnet 5 (표준) | $3 | $15 | 2026년 9월 1일부터 |
| Sonnet 4.6 | $3 | $15 | 표준 |
| Opus 4.8 | $5 | $25 | 표준 |
| Haiku 4.5 | $1 | $5 | 표준 |
단, 단가가 같다고 해서 반드시 "Sonnet 4.6과 동일한 비용으로 작동한다"는 뜻은 아닙니다. 앞서 언급한 새로운 토크나이저(Tokenizer)의 영향으로, 동일한 텍스트라도 약 30% 더 많은 토큰이 발생합니다. 단가는 유지되지만 토큰이 약 30% 증가하므로, 동일한 요청을 보낼 경우 4.6보다 비용이 더 비싸지는 상황이 발생할 수 있습니다 (도입 가격인 $2/$10가 적용되는 8월 말까지는 가격 측면에서 그 증가분을 흡수해 준다고 볼 수도 있습니다).
실제 비용을 정확히 추산하려면, 대표적인 프롬프트를 claude-sonnet-5로 토큰 카운트(Token Count)한 뒤 새로운 단가를 곱해 보는 것이 확실합니다. "단가표만 보고 같다고 생각했다가, 월말 청구 금액이 예상보다 높게 나온" 상황을 방지할 수 있습니다.
Sonnet 4.6에서 마이그레이션(Migration)할 때는 우선 모델 ID를 교체하는 것부터 시작합니다.
model = "claude-sonnet-4-6" # Before
model = "claude-sonnet-5" # After
그다음, 앞서 언급한 세 가지 동작 변경 사항에 대응합니다. 최소한의 호출 형태는 다음과 같습니다 (설명을 위한 예시입니다).
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
...
마이그레이션 후 체크해야 할 사항들을 순서대로 정리해 두겠습니다.
- 토큰 예산과 카운트. 새로운 토크나이저 (Tokenizer)로 인해 약 30% 증가하므로, 토큰 카운트 (Token Count) API로 다시 측정하여
max_tokens상한을 재검토합니다. - 확장 사고 (Extended Thinking).
budget_tokens를 사용하고 있었다면 어댑티브 사고 (Adaptive Thinking)로 전환합니다. 수동 확장 사고는 400이 됩니다. - 샘플링 파라미터 (Sampling Parameters).
temperature/top_p/top_k의 비기본값(non-default values)을 보내고 있었다면 삭제합니다.
제공 플랫폼은 폭넓으며, Claude API (모든 고객)를 비롯하여 AWS (Bedrock / Claude Platform on AWS), Google Cloud (Vertex AI), Microsoft Foundry (프리뷰)에서 사용할 수 있습니다. 단, AWS의 레거시 경로 (InvokeModel / Converse API)에서는 Sonnet 5를 사용할 수 없다는 점에 주의하십시오.
마지막으로, 모델 선택 관점에서 정리합니다. 3단계 티어 (3-tier)를 구분해서 사용한다면, 대략 다음과 같이 생각하는 것이 판단하기 쉽습니다.
- 일상적인 주력으로서 코딩, 채팅, 요약, 에이전트 (Agent)를 폭넓게 수행한다면 Sonnet 5. 가격과 성능의 균형이 좋으며, 4.6에서의 순수한 업그레이드입니다.
- 무엇보다 최고의 난제 해결 능력이 필요하며, 장시간 자율 에이전트나 복잡한 리팩토링을 수행한다면 Opus 4.8. SWE-bench Pro나 난제 계열에서 한 단계 높은 수치를 보여줍니다 (그만큼 $5/$25로 가격이 높습니다).
- 속도와 비용이 최우선이며, 지능을 그렇게까지 요구하지 않는 분류나 단순 조회라면 Haiku 4.5.
저 자신이 만약 신규 프로젝트에서 하나를 선택한다면, 우선 Sonnet 5를 기본값으로 설정하겠습니다. 도입 가격이 유리한 8월 말까지는 특히 테스트하기 쉬우며, 어려운 태스크에서 막힐 때만 국소적으로 Opus 4.8로 전환하는 운영 방식이 현실적이라고 생각합니다.
Claude Sonnet 5에서 가장 기억해야 할 점은, "Sonnet 4.6의 드롭인 교체(drop-in replacement)이지만, 3가지 동작 변경 사항과 토크나이저만큼은 반드시 확인해야 한다"는 한 가지입니다. 어댑티브 사고의 기본값화, 수동 확장 사고의 삭제, 샘플링 파라미터의 제약. 이 세 가지에 대응하고 새로운 토크나이저로 인한 토큰 수와 비용을 다시 측정한다면, 동일한 가격으로 한 단계 높은 성능을 얻을 수 있습니다.
벤치마크를 보는 한, 코딩과 에이전트의 성능 향상은 실질적이며 타사 모델과 어깨를 나란히 하는 장면도 늘어났습니다. 다만 기준에 따라 순위는 바뀔 수 있으며, 표의 수치는 제3자 집계 결과입니다. 최종적으로는 자신의 워크로드 (Workload)에서 claude-sonnet-5를 실제로 구동하여 토큰 수와 품질을 측정한 후 판단하는 것이 가장 확실하다고 생각합니다.
- Claude Sonnet 5의 신기능 (Anthropic 공식 문서)
- 모델 개요 및 가격 (Anthropic 공식)
- Anthropic Transparency Hub (벤치마크 1차 정보)
- Claude Sonnet 5: Benchmarks, Pricing & How It Compares (codersera)
- Best AI Model for Coding (morphllm)
💡 벤치마크는 모두 벤더 공표치 및 제3자 집계이며, 동일 환경에서의 재실행 결과가 아닙니다. 가격 및 사양은 2026년 7월 기준이며, 변동될 가능성이 있습니다. 최신 값은 공식 문서에서 확인하시기 바랍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기