
【2026년 6월】Claude Sonnet 5 출시! Opus급 에이전트 성능과 비용 효율 정리
요약
Anthropic이 Opus급 에이전트 성능을 갖춘 Claude Sonnet 5를 출시했습니다. 미들 사이즈 모델임에도 자율적 계획 수립과 도구 이용 능력이 대폭 향상되었으며, 어댑티브 싱킹(Adaptive Thinking) 기능이 도입되었습니다.
핵심 포인트
- Opus급 에이전트 성능을 미들 사이즈 모델로 구현
- 어댑티브 싱킹(Adaptive Thinking) 기본 활성화
- 코딩 및 에이전트 태스크를 위한 다양한 Effort 레벨 지원
- 새로운 토크나이저 채택으로 토큰 효율성 변화
2026년 6월 30일, Anthropic으로부터 Claude Sonnet 5가 일반 제공되었습니다. 2026년 2월에 출시된 Sonnet 4.6으로부터 약 4개월 만의 메이저 업데이트로, "이전보다 더 크고 비싼 모델이 필요했던 수준의 에이전트 성능을 미들 사이즈 모델로 실현했다"(Anthropic 공식)라고 정의할 수 있는 출시입니다.
특기할 점은 다음 3가지입니다.
도입 가격은 입력 $2 / 출력 $10 per 1M tokens (2026년 8월 31일까지. 이후에는 표준 가격 $3 / $15로 이행)로, 가격을 유지하면서 Opus급에 육박하는 성능 향상 -
Free / Pro 플랜의 기본 모델로 승격. Claude Code / API를 경유해서도 claude-sonnet-5로서 즉시 이용 가능 -
자율적인 계획 수립·도구 이용(브라우저, 터미널)의 수준이, 몇 달 전까지만 해도 대형 모델이 아니면 불가능했던 레벨에 도달
본 기사는 Claude API · Claude Code · Amazon Bedrock을 통해 Sonnet을 이용하고 있는 개발자를 대상으로, Sonnet 4.6 → 5 이행 판단에 필요한 정보를 정리합니다.
| 항목 | Claude Sonnet 5 |
|---|---|
| 모델 ID | claude-sonnet-5 |
| ... | |
| Free · Pro 플랜의 기본 모델로 제공된다는 점이 이번의 큰 특징입니다. Opus 4.8은 계속해서 더 높은 정밀도가 요구되는 태스크의 선택지로 남지만, Sonnet 5는 "비용을 억제하면서 품질이 대폭 향상된" 실무용 주력 모델이라는 위치입니다. |
Sonnet 4.6 대비, 추론(Reasoning) · 도구 이용 · 소프트웨어 코딩 · 지식 작업(Knowledge Work) 전반에 걸쳐 큰 개선이 보입니다. 자율적으로 플랜을 세우고, 브라우저나 터미널 등의 도구를 능숙하게 사용하여 작업을 진행하는 능력이, "몇 달 전이라면 대형·고가 모델이 아니면 도달할 수 없었던 수준"에 도달했다고 Anthropic은 설명하고 있습니다.
Sonnet 4.6에서는 thinking 파라미터를 생략하면 사고 없이 동작했지만, Sonnet 5에서는 생략 시 어댑티브 싱킹(Adaptive Thinking)이 활성화됩니다.
import anthropic
client = anthropic.Anthropic()
# thinking을 생략해도 어댑티브 싱킹이 활성화됨
...
명시적으로 무효화하고 싶은 경우에는 thinking={"type": "disabled"}를 지정합니다. 반대로, 사고 내용을 UI에 표시하고 싶은 경우에는 display: "summarized"를 명시하지 않으면, 기본값인 "omitted"에 의해 내용이 빈 문자열로 반환된다는 점에 주의하십시오.
response = client.messages.create(
model="claude-sonnet-5",
max_tokens=16000,
...
Sonnet 계열로서 처음으로 low / medium / high / xhigh / max의 모든 레벨에 대응했습니다. 기본값은 high(Sonnet 4.6과 동일)이며, 코딩 · 에이전트 용도의 최난관 태스크에서는 xhigh를 권장하고 있습니다.
output_config={"effort": "xhigh"} # 최난관의 코딩 · 에이전트 태스크용
기준으로서, Sonnet 5의 medium은 Sonnet 4.6의 high 상당, Sonnet 5의 high는 Sonnet 4.6의 max 상당의 지적 수준에 도달한다고 여겨집니다.
Opus 4.7/4.8과 동일한 새로운 토크나이저(Tokenizer)를 채택하고 있어, 동일한 텍스트라도 Sonnet 4.6 대비 약 30% 많은 토큰 수가 됩니다. 가격은 유지(오히려 도입 가격으로 낮아짐)되지만, 컨텍스트 윈도우(Context Window)의 실질적인 사용 효율이나 비용 산출에는 영향을 미치므로, count_tokens를 통한 재측정을 권장합니다.
Opus 4.7/4.8과 마찬가지로, temperature / top_p / top_k에 기본값 이외의 값을 설정하면 400 에러가 발생합니다.
이미지 입력의 최대 해상도가 장변 2,576px(약 3.75메가픽셀)까지 확대되었습니다. Sonnet 계열 중 최초의 고해상도 대응으로, 밀집된 문서나 UI 스크린샷의 인식 정밀도가 향상됩니다. 다만, 풀 해상도 이미지는 기존 대비 최대 약 3배의 토큰을 소비한다는 점에 주의하십시오.
에이전트 운용 시 부정 이용에 협력하거나 기만하는 행위의 발생률이 Sonnet 4.6보다 낮아졌습니다. 프롬프트 인젝션 (Prompt Injection) 공격에 대한 내성 및 악의적인 요청에 대한 거부 정밀도도 향상되었습니다.
Sonnet 4.6에서 기능하던 thinking: {"type": "enabled", "budget_tokens": N}
(과도기적 구제 조치)는 Sonnet 5에서는 완전히 폐지되어 400 에러가 발생합니다. 어댑티브 싱킹 (Adaptive Thinking)으로의 전환이 필수적입니다.
# Before(Sonnet 4.6, 권장되지 않는 과도기적 조치)
thinking={"type": "enabled", "budget_tokens": 10000}
# After(Sonnet 5)
...
앞서 언급한 바와 같이, Sonnet 4.6에서는 thinking을 생략할 때 사고(thinking) 없이 동작했지만, Sonnet 5에서는 어댑티브 싱킹이 활성화됩니다. 에러는 발생하지 않으므로, max_tokens를 사고가 없는 것을 전제로 한계치까지 설정해 두었다면 출력이 도중에 끊길 가능성이 있습니다.
동일 텍스트 기준 토큰 수가 약 30% 증가하므로, max_tokens나 컨텍스트 압축 트리거, 비용 산출을 다시 측정하십시오.
# Before(Sonnet 4.6)
response = client.messages.create(
model="claude-sonnet-4-6",
...
Anthropic API뿐만 아니라 Amazon Bedrock · Google Cloud Vertex AI · Microsoft Foundry · Claude Code의 모든 채널에서 즉시 GA (General Availability) 됩니다. 멀티 클라우드 구성에서도 이행 타이밍의 차이는 발생하지 않습니다.
Anthropic 공식 및 보도에 따르면, Sonnet 5는 Sonnet 4.6 대비 에이전트 계열 태스크(추론 · 도구 이용 · 코딩 · 지식 작업) 전반에서 큰 개선을 보여주고 있습니다. Opus 4.8은 계속해서 최고 정밀도를 요구하는 태스크의 선택지로 남겠지만, Sonnet 5는 "더 낮은 가격으로 Opus급에 근접하는 품질"을 제공하는 개발자용 핵심 모델이라는 위치를 차지합니다.
도입 가격(입력 $2 / 출력 $10 per 1M tokens, 2026년 8월 31일까지)은 표준 가격에서 더욱 인하되어, 비용 효율을 중시하는 워크로드에서의 채택 장벽이 낮아졌습니다.
Sonnet 5는 Opus급의 에이전트 성능을 미들 사이즈 모델의 비용으로 얻을 수 있는 릴리스입니다. Sonnet 4.6을 운영 환경에서 사용 중인 팀은 다음 관점에서 이행 검토를 고려해야 할 시점에 와 있습니다.
: thinking 설정 재검토: budget_tokens는 완전히 폐지되었습니다. 어댑티브 싱킹으로의 전환이 필수입니다.
: thinking 생략 시 동작 변화 주의: 기본적으로 어댑티브 싱킹이 활성화되므로, max_tokens에 여유를 두십시오.
- 토큰 수 재측정: 새로운 토크나이저(Tokenizer)로 인해 실질 토큰 수가 약 30% 증가했습니다.
count_tokens로 재측정하여 비용 산출과 컨텍스트 관리를 업데이트하십시오.
: 코딩 · 에이전트 용도에서의 effort 재튜닝: xhigh 활용을 검토하십시오.
- 도입 가격 활용: 2026년 8월 31일까지의 할인 가격으로 비용 효율을 극대화하십시오.
특히 비용 효율을 중시하면서도 Opus급의 품질을 요구하는 에이전트 운용 및 코딩 지원 워크로드에서는 즉시 검토할 가치가 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기