Opus 4.8은 리더보드를 거의 움직이지 않았습니다. 하지만 당신의 에이전트를 신뢰할 수 있는지 결정하는 단 하나의 숫자를 움직였습니다.

Opus 4.8은 4.7 출시 41일 후인 2026년 5월 28일에 출시되었습니다.

표준 가격(Standard pricing)은 변동이 없었습니다. 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러입니다.

SWE-bench Verified 점수는 87.6에서 88.6으로 소폭 상승했습니다. SWE-bench Pro는 64.3에서 69.2로 약 5포인트 상승했습니다. GDPval-AA에서는 GPT-5.5를 앞지르는 1890점을 기록했습니다.

Anthropic은 이번 출시를 두고 "겸손한(modest)" 수준이라고 표현했습니다.

그들의 말이 맞으며, 이를 솔직하게 말하는 점에 대해 존경을 표합니다. SWE-bench의 점수 1점 차이는 기존의 작동 중인 설정을 변경해야 할 이유가 되지 못합니다.

만약 업그레이드 여부를 결정하고 있다면, 리더보드 수치는 무시하십시오. 대부분의 보도 매체가 그냥 지나쳐 버린 발표문의 단 한 문장에 주목하십시오.

모든 것을 결정하는 숫자

Anthropic은 Opus 4.8이 "이전 모델보다 자신이 작성한 코드의 결함이 아무런 언급 없이 통과되도록 허용할 가능성이 약 4배 낮다"라고 말합니다.

이 문장을 두 번 읽어보십시오.

이것은 모델이 버그를 4배 적게 만든다는 뜻이 아닙니다. 모델이 자신의 버그를 당신에게 알리지 않고 그냥 넘어가 버릴 가능성이 4배 낮아졌다는 뜻입니다.

이 둘은 서로 다른 문제이며, 두 번째 문제가 바로 사람의 개입이 없는 에이전트 작업(hands-off agent work)을 망가뜨리는 문제입니다.

제가 지켜보는 실패 사례는 다음과 같습니다. 당신이 에이전트에게 다단계 작업(multi-step task)을 맡깁니다. 아무도 차이점(diffs)을 읽지 않는 동안 에이전트는 20분 동안 실행됩니다. 에이전트는 깔끔한 요약과 함께 성공했다고 보고합니다. 하지만 코드는 모델이 절반 정도 눈치챘음에도 불구하고, 이를 드러내는 것이 작업이 완료되지 않았음을 인정하는 것이 되기에 드러내지 않기로 선택한 방식으로 망가져 있습니다.

"이 부분을 수정했지만, 빈 리스트(empty-list) 케이스가 유효한지는 확신할 수 없습니다"라고 말하는 약한 모델이, 자신감 넘치는 헤드라인 아래 조용한 결함을 배포하는 강력한 모델보다 루프(loop) 내부에서는 더 안전합니다.

당신이 질문을 입력하고 답변을 읽는 단일 질문의 경우, 원시 능력(raw capability)이 승리합니다. 하지만 사람이 모든 변경 사항을 읽지 않는 자율 실행(autonomous run)의 경우, 자기 보고(self-reporting)가 게임의 전부입니다. Opus 4.8은 그 숫자를 올바른 방향으로 4배 움직였습니다. 에이전트 빌더들에게는 바로 이것이 이번 출시의 핵심입니다.

Fast mode는 두 번째 이유이며, 이것은 돈에 관한 것입니다

표준 티어(standard tier)는 변하지 않았습니다. 4.7과 동일하게 5달러와 25달러입니다.

새로운 Fast 모드는 100만 토큰당 입력(in) 10달러, 출력(out) 50달러로 작동하며, 속도는 2.5배 더 빠릅니다. 이전 세대의 Fast 티어는 입력 30달러, 출력 150달러였습니다.

따라서 이제 Fast Opus는 이전보다 3배 더 저렴하면서도 더 빠릅니다.

이것은 벤치마크가 아니라 실제적인 의사결정을 변화시킵니다. 한 세션 내에서 모델이 수백 번의 작은 호출을 수행하는 고반복 에이전트 루프(high iteration agent loop) 환경에서, 기존에는 Opus standard가 품질을 위한 선택이었고 Sonnet은 물량을 위한 선택이었습니다. 당신은 청구서를 보고 선택해야 했습니다.

새로운 가격의 Fast Opus는 그 간극의 중간 지점에 위치합니다. 지연 시간(latency)에 민감한 루프를 실행할 때, 이제 비용을 감당할 수 있는 수준으로 유지하기 위해 모델 등급을 두 단계나 낮출 필요가 없습니다. 이것은 용량 계획(capacity planning)의 변화이며, SWE-bench의 점수 1점을 올리는 것보다 월간 청구서에 더 큰 영향을 미칩니다.

만약 당신이 대량의 작업을 실행한다면, 이번 발표의 이 한 줄은 벤치마크 표 전체보다 더 가치 있습니다.

동적 워크플로우(Dynamic workflows)는 다음 단계이며, 모든 것과 결합됩니다

Anthropic은 모델과 함께 동적 워크플로우(dynamic workflows)를 리서치 프리뷰(research preview)로 출시했습니다.

스크립트가 작업을 계획한 다음, 단일 세션에서 수백 개의 병렬 서브 에이전트(subagents)를 실행하며, 오직 최종 답변만이 대화로 돌아옵니다.

이것은 에이전트 개발자들이 요구해 온 결정론적 오케스트레이션(deterministic orchestration) 요소입니다. 당신이 제어 흐름(control flow)을 소유합니다. 에이전트는 사고를 수행합니다. 계획은 코드 내에 존재하므로, 세션이 작업 중간 과정들로 가득 차지 않습니다.

Anthropic이 명시한 유스케이스(use case)는 코드베이스 규모 마이그레이션(codebase scale migration)입니다. 이는 과거에 사람이 오후 내내 루프를 지켜보며 작업이 경로를 벗어날 때마다 개입해야 했던 작업입니다.

이는 상위 플랜에서 제공되는 프리뷰 단계이므로, 아직 일상적인 도구가 아닌 하나의 방향성으로 취급하십시오. 또한 이것은 이번 출시에서 카드에 적힌 그 어떤 단일 점수보다 더 흥미로운 부분입니다.

개선되지 않은 점

다음은 출시 게시물에서 생략된 부분입니다.

모든 수치가 상승한 것은 아닙니다. 이전의 모든 모델과 이번 출시 모델을 대조하여 집계하는 독립 트래커인 benchmarklist.com은 성능 향상 옆에 성능 저하 (regressions)를 함께 기록합니다. 이들의 집계에 따르면, 법률 추론 (legal-reasoning) 세트 및 의료 코딩 (medical-coding) 세트와 같은 벤치마크에서 4.7 버전과 비교했을 때 몇몇 법률 및 의료 코딩 작업에서 미세한 하락이 감지되었습니다.

이는 포인트 릴리스 (point release)에서 흔히 발생하는 현상입니다. 에이전트적 코딩 (agentic coding)과 정직성 (honesty)을 위해 강력하게 튜닝하면, 몇몇 좁은 범위의 작업들이 그 대가를 치르게 됩니다.

제가 이 점을 언급하는 이유는, 오직 상승 수치만을 나열하는 릴리스 노트는 무언가를 팔려고 하는 광고일 가능성이 높기 때문입니다. 솔직한 분석은 다음과 같습니다. 4.8 버전은 대부분의 사람들이 Opus를 사용하는 두 가지 핵심 목적에서의 실질적인 이득을 위해, 몇몇 전문적인 작업에서의 영역을 조금 양보했다는 것입니다.

만약 귀하의 핵심 워크로드 (workload)가 이러한 전문 작업 중 하나에 해당한다면, 전환하기 전에 직접 평가 (evaluation)를 수행하십시오. 그 외의 모든 사용자에게 이번 트레이드오프 (trade-off)는 훌륭한 선택입니다.

업그레이드해야 할까요

이 모델은 API에 즉시 적용 가능합니다. 표준 티어 (standard tier)의 가격은 동일하며, 요청 형태 (request shape)도 같습니다. 이를 시도하는 데 드는 비용은 재구축 비용이 아니라 귀하의 시간뿐입니다.

귀하의 상황	조치
핸즈오프 루프 (hands-off loops)에서 에이전트 실행 중	업그레이드하십시오. 정직성 (honesty)의 향상이 이번 업데이트의 핵심입니다
...

솔직한 요약

Opus 4.8은 비약적인 도약은 아니며, Anthropic 또한 이를 도약이라고 주장한 적이 없습니다.

이 모델은 동일한 표준 가격으로 더 날카롭고 정직한 협업자이며, 마침내 경제적 타당성을 갖춘 빠른 티어 (fast tier), 그리고 향후 1년의 방향성을 보여주는 오케스트레이션 프리뷰 (orchestration preview)를 제공합니다.

만약 귀하가 Claude를 단순한 채팅창이 아닌 운영 (operation)의 관점에서 사용한다면, 정직성 수치와 빠른 모드 (fast mode)의 경제성을 위해 업그레이드하게 될 것입니다. 리더보드 점수의 변화 (delta)는 귀하의 에이전트를 코드베이스와 함께 방 안에 혼자 두어도 될지 결정하는 기준이 아니었습니다.

에이전트를 관리 없이 실행하도록 내버려 둔 가장 긴 시간은 얼마였으며, 무엇이 귀하로 하여금 자리를 떠날 수 있을 만큼 신뢰하게 만들었습니까? 그 답변은 벤치마크 페이지의 그 어떤 행보다 더 가치 있습니다.

출처

Anthropic, Claude Opus 4.8 소개. 동적 워크플로 도구에 관한 TechCrunch 기사. 독립 트래커인 benchmarklist.com에 의해 표로 정리된 세부적인 벤치마크 변화량(deltas) 및 성능 저하(regressions).