Claude Opus 4.8: Anthropic의 새로운 플래그십 모델에 대해 개발자가 알아야 할 사항

요약

Anthropic이 새로운 플래그십 모델인 Claude Opus 4.8을 출시했습니다. 이전 버전 대비 속도와 비용 효율성이 크게 개선되었으며, SWE-Bench Pro 등 주요 벤치마크에서 압도적인 성능을 보여줍니다.

핵심 포인트

Opus 4.8의 빠른 모드는 2.5배 빠르고 비용은 3배 저렴함
SWE-Bench Pro에서 69.2%를 기록하며 GPT-5.5를 상회
코드 결함 인지 능력이 이전 버전 대비 약 4배 향상됨
에이전트 기반 컴퓨터 사용 및 도구 활용 추론 능력 강화

Anthropic이 오늘 Claude Opus 4.8을 출시했습니다. Opus 4.7과 동일한 가격이며, 빠른 모드 (fast mode)는 2.5배 더 빨라졌고, 빠른 모드의 비용은 이전보다 3배 더 저렴해졌습니다. 모델 출시와 함께 Claude Code의 동적 워크플로우 (dynamic workflows) 및 claude.ai의 노력 제어 (effort control) 기능도 도입되었습니다.

이 포스트에서는 벤치마크 수치, 코딩 및 에이전트 (agents)를 위한 실질적인 변화, 그리고 Claude를 기반으로 구축하는 팀들이 주의 깊게 살펴봐야 할 사항들을 다룹니다.

벤치마크 수치 (Benchmark Numbers)

benchmark comparison table showing Opus 4.8 vs Opus 4.7 vs GPT-5.5 vs Gemini 3.1 Pro

개발자들에게 가장 중요한 수치들입니다:

SWE-Bench Pro (에이전트 기반 코딩 (agentic coding)): Opus 4.8 = 69.2%, Opus 4.7 = 64.3%, GPT-5.5 = 58.6%, Gemini 3.1 Pro = 54.2%. 이전 버전 대비 4.9포인트 상승했으며, GPT-5.5보다 10.6포인트 앞서 있습니다.

Terminal-Bench 2.1 (에이전트 기반 터미널 코딩 (agentic terminal coding)): Opus 4.8 = 74.6%, GPT-5.5 = 78.2%, Gemini 3.1 Pro = 70.3%. 이 벤치마크에서는 GPT-5.5가 앞서고 있습니다. 하지만 Opus 4.8은 Opus 4.7의 66.1%보다 여전히 8.5포인트 상승했습니다.

OSWorld-Verified (에이전트 기반 컴퓨터 사용 (agentic computer use)): Opus 4.8 = 83.4%, GPT-5.5 = 78.7%. 브라우저 에이전트 (Browser agent)는 Online-Mind2Web에서 84%를 기록하며 Opus 4.7과 GPT-5.5를 모두 앞질렀습니다.

Humanity's Last Exam (도구를 활용한 추론 (reasoning, with tools)): Opus 4.8 = 57.9%, GPT-5.5 = 52.2%, Gemini 3.1 Pro = 51.4%.

Finance Agent v2: Opus 4.8 = 53.9%, GPT-5.5 = 51.8%. 모든 항목을 통과한 Legal Agent 벤치마크에서 10%를 돌파한 첫 번째 모델입니다.

모델 및 워크로드별 비용 비교를 위해서는 ComparEdge의 LLM 계산기를 사용하여 특정 시나리오를 실행해 보는 것이 유용합니다.

코드 품질 및 도구 호출 (Tool Calling)의 변화

일상 업무에서 가장 관련성이 높은 변화는 다음과 같습니다: Opus 4.8은 Opus 4.7에 비해 코드 결함을 인지하지 못한 채 통과시킬 확률이 약 4배 더 낮습니다. 스스로의 실수를 더 자주 잡아내며, 계획에 문제가 있을 경우 이의를 제기합니다.

Devin의 팀은 이러한 개선 사항을 직접 확인했습니다: "Claude Opus 4.8은 도구 (tools)를 깔끔하게 사용하며, 자율적인 엔지니어링 워크로드 (autonomous engineering workloads)가 중단 없이 계속 실행되는 데 필요한 일관성을 가지고 지침을 따릅니다. 이는 Opus 4.6을 개선한 것이며, Opus 4.7에서 나타났던 주석 과다 (comment-verbosity) 및 도구 호출 (tool-calling) 문제를 해결했습니다."

CursorBench의 보고에 따르면, Opus 4.8은 모든 노력 수준 (effort level)에서 이전 Opus 모델들을 능가하며, 전반적으로 더 효율적인 도구 호출 (tool calling) 성능을 보여주었습니다.

Shopify의 Staff Engineer인 Tom Pritchard는 다음과 같이 말했습니다: "Claude Opus 4.8은 눈에 띄게 더 나은 판단력을 갖추고 있습니다. Claude Code에서 이 모델은 적절한 질문을 던지고, 스스로의 실수를 잡아내며, 계획이 타당하지 않을 때 이의를 제기합니다. 또한 큰 변경을 수행하기 전에 복잡한 다중 서비스 탐색 (multi-service explorations)에 대한 확신을 쌓아갑니다. 개발하기에 매우 훌륭한 모델입니다."

공동 창립자이자 CTO인 Kay Zhu는 다음과 같이 덧붙였습니다: "우리의 Super-Agent 벤치마크에서 Claude Opus 4.8은 모든 케이스를 엔드 투 엔드 (end-to-end)로 완료한 유일한 모델이며, 이전 Opus 모델들과 비용 측면에서 대등한 GPT-5.5를 능가했습니다."

Claude Code의 동적 워크플로 (Dynamic Workflows)

모델 출시와 함께 공개된 가장 큰 기능은 Claude Code에서 리서치 프리뷰 (research preview)로 제공되는 동적 워크플로 (dynamic workflows)입니다. 이 모델은 작업을 계획하고 단일 세션 내에서 수백 개의 병렬 서브 에이전트 (subagents)를 실행합니다. Anthropic은 이를 통해 시작부터 병합 (merge)에 이르기까지 수십만 줄의 코드에 걸친 코드베이스 규모의 마이그레이션 (codebase-scale migrations)이 가능해진다고 밝혔습니다.

Enterprise, Team, Max 플랜에서 사용 가능합니다.

이는 이전에는 여러 Claude 세션을 수동으로 조율 (manual orchestration)하는 것이 유일한 옵션이었던 대규모 리팩터링 (refactors), 프레임워크 마이그레이션 (framework migrations), 그리고 서비스 간 변경 사항 작업에 특히 유용합니다.

정렬 (Alignment) 개선 사항

정렬되지 않은 동작 (Misaligned behavior, 기만, 오용과의 협력)이 Opus 4.7보다 실질적으로 낮습니다. Opus 4.8은 Anthropic의 정렬되지 않음 지표 (misalignment metric)에서 Mythos Preview (그들의 가장 잘 정렬된 모델)와 유사한 1.83점에 가까운 점수를 기록했습니다. Opus 4.7은 2.47점을 기록했습니다. 이는 모델이 지속적인 인간의 검토 없이 작동하는 자율 에이전트 (autonomous agents)를 운영하는 팀들에게 중요한 의미를 갖습니다.

가격 (Pricing)

Opus 4.7과 동일한 가격입니다. Fast mode는 2.5배 빠른 속도로 제공되며, 이전 모델들의 fast mode보다 3배 저렴합니다. Databricks는 자사의 Genie 에이전트의 토큰 비용이 Opus 4.7 대비 61% 저렴하다고 보고했습니다.

AI 자동 생성 콘텐츠

원문 바로가기