Claude Sonnet 5, 더 낮은 비용으로 지식 작업에서 Opus 4.8을 능가하다

Anthropic은 모든 벤치마크에서 Sonnet 4.6을 능가하고, GDPval-AA v2에서 1,618점을 기록하며 Opus 4.8을 앞지른 Claude Sonnet 5를 출시했습니다.

Anthropic은 GDPval-AA v2 벤치마크에서 1,618점을 기록한 Claude Sonnet 5를 출시했으며, 이는 1,615점을 기록한 더 큰 모델인 Opus 4.8을 능가하는 수치입니다. 이 모델은 2026년 8월까지 출시 기념 할인 혜택을 통해 이용할 수 있습니다.

주요 사실 (Key facts)

Sonnet 5는 GDPval-AA v2에서 1,618점을 기록하여 Opus 4.8을 능가했습니다.
SWE-bench Pro: 63.2% (Sonnet 5) vs 58.1% (Sonnet 4.6).
Terminal-Bench 2.1: 80.4% (Sonnet 5) vs 67.0% (Sonnet 4.6).
OSWorld-Verified: 81.2% (Sonnet 5) vs 78.5% (Sonnet 4.6).
2026년 8월까지 출시 기념 할인 혜택으로 이용 가능합니다.

Anthropic은 Claude Sonnet 5를 자사에서 가장 에이전트적 (agentic)인 Sonnet 모델이라고 명명하며 출시했습니다 [The Decoder에 따르면]. 이 모델은 스스로 계획을 세우고 브라우저나 터미널과 같은 도구를 사용할 수 있어, 더 고가인 Opus 시리즈와의 격차를 좁히고 있습니다.

전반적인 벤치마크 성능 향상

Anthropic이 발표한 벤치마크에 따르면, Sonnet 5는 테스트된 모든 카테고리에서 이전 모델인 Sonnet 4.6을 능가하는 동시에 Opus 4.8과의 격차도 줄이고 있습니다 [기사에 따르면]. 에이전트적 코딩 (agentic coding) 분야에서 Sonnet 5는 SWE-bench Pro에서 63.2%를 기록하며, Sonnet 4.6의 58.1%보다 상승했습니다. Opus 4.8은 69.2%를 기록하고 있습니다. Terminal-Bench 2.1에서 Sonnet 5는 80.4%를 달성하여 Sonnet 4.6의 67.0%와 대조를 이룹니다. 다학제적 추론 (multidisciplinary reasoning, Humanity's Last Exam)의 경우, 이 모델은 도구를 사용하여 57.4%에 도달하며 Opus 4.8의 57.9%에 거의 근접했습니다. 컴퓨터 사용 (computer use, OSWorld-Verified) 측면에서 Sonnet 5는 이전 모델의 78.5%와 비교하여 81.2%를 기록했습니다.

실제 세계의 지식 작업(knowledge tasks)에서 AI를 테스트하는 지식 작업 벤치마크인 GDPval-AA v2에서, Sonnet 5는 Opus 4.8의 점수인 1,615점을 넘어 1,618점을 기록하며 실제로 더 큰 모델인 Opus 4.8을 능가했습니다. Anthropic은 초기 액세스 파트너들의 피드백 또한 동일한 양상을 보였다고 밝혔습니다. Sonnet 5는 검색 작업(search tasks)을 처리하는 방식 등에서 볼 수 있듯이, 이전 버전들보다 훨씬 더 에이전트적(agentically)으로 동작합니다.

사이버 보안 맥락 (Cybersecurity context)

이번 출시는 미국 정부가 사이버 보안 우려를 이유로 Anthropic의 가장 유능한 모델 중 두 가지인 Mythos 5와 Fable 5를 차단한 가운데 이루어졌습니다. Anthropic은 유사한 우려에 대해 선제적으로 대응하기를 분명히 열망하고 있습니다. 회사 측은 해당 모델이 사이버 보안 작업에 대해 학습되지 않았으며, 소프트웨어 익스플로잇(software exploits) 작성과 같은 위험한 능력에 대한 테스트에서 Opus 4.8과 Mythos 5보다 훨씬 낮은 점수를 기록했다고 밝혔습니다.

하지만 Sonnet 5는 이러한 작업에서 이전 모델보다 약간 더 높은 점수를 기록했습니다. 이에 따라 Anthropic은 사이버 보호 장치(cyber safeguards)를 기본적으로 활성화했습니다. 이들은 Claude Opus 4.7 및 4.8에 이미 적용된 보호 조치와 대등한 수준으로, 위험한 사이버 사용을 실시간으로 감지하고 차단합니다. 이는 사용자들이 즉각적으로 불만을 제기했던 Fable 5의 가드레일(guardrails)에 비해서는 완화된 수준입니다. Anthropic은 Sonnet 5로부터 발생하는 전반적인 사이버 보안 위험을 낮게 보고 있다고 밝혔습니다.

이 모델은 현재 모든 Anthropic 플랫폼에서 출시 기념 할인 가격으로 이용 가능하며, 가격은 2026년 8월 이후 표준 Sonnet 요금으로 인상됩니다.

주목해야 할 점

2026년 8월에 출시 기념 할인이 종료된 이후의 기업 도입 지표(enterprise adoption metrics)를 주목하십시오. 또한, 향상된 에이전트적 능력(agentic capabilities)을 고려하여 미국 정부가 Sonnet 5에 대해 어떠한 제한을 부과하는지, 그리고 Anthropic이 격차를 유지하기 위해 새로운 Opus 모델을 출시하는지 여부도 모니터링해야 합니다.

Firefox 147 exploit evaluation. Like its predecessor Sonnet 4.6, Sonnet 5 couldn't develop a fully working exploit but shows a slightly higher partial

출처: the-decoder.com

[07월 01일 업데이트 (the_decoder 경유)]

하지만 개발자 Simon Willison은 Sonnet 5가 새로운 토크나이저 (tokenizer)를 사용하여, 동일한 영어 텍스트에 대해 Sonnet 4.6보다 약 30% 더 많은 토큰을 생성하며, 이는 결과적으로 비용을 약 40% 인상시키는 효과를 가져온다고 언급했습니다 [Simon Willison에 따르면]. 또한 이 모델은 샘플링 파라미터 (sampling parameters)인 temperature, top_p, top_k에 대한 지원을 중단했으며, 적응형 사고 (adaptive thinking) 기능이 기본적으로 활성화되어 있습니다. 이 모델은 100만 토큰의 컨텍스트 윈도우 (context window)와 최대 128,000 토큰의 출력 토큰을 제공합니다.

원문 게시: gentic.news

Insights

Claude Sonnet 5, 더 낮은 비용으로 지식 작업에서 Opus 4.8을 능가하다

요약

핵심 포인트

전반적인 벤치마크 성능 향상

사이버 보안 맥락 (Cybersecurity context)

주목해야 할 점

댓글

비트코인(BTC) 20% 급락 속 미국 현물 비트코인 ETF, 6월에 역대 최대 규모인 45억 달러 유출 기록

DeepSeek V4 7월 중순 공식 출시 — 피크 시간대 API 가격 2배 인상

예쁜 웹사이트와 돈을 버는 웹사이트의 차이점은 무엇인가? 그리고 왜 AI는 당신에게 첫 번째 것만을 제공할 수 있는가

GEO (Generative Engine Optimization) — 현재 가장 강력하게 떠오르는 SEO의 새로운 물결

비트코인(BTC) 20% 급락 속 미국 현물 비트코인 ETF, 6월에 역대 최대 규모인 45억 달러 유출 기록

DeepSeek V4 7월 중순 공식 출시 — 피크 시간대 API 가격 2배 인상

예쁜 웹사이트와 돈을 버는 웹사이트의 차이점은 무엇인가? 그리고 왜 AI는 당신에게 첫 번째 것만을 제공할 수 있는가

GEO (Generative Engine Optimization) — 현재 가장 강력하게 떠오르는 SEO의 새로운 물결