Claude Opus 4.8 출시: AI 네이티브 개발 팀에게 미치는 의미

요약

Anthropic이 에이전트 시스템과 코딩 어시스턴트 성능을 강화한 Claude Opus 4.8을 출시했습니다. 이번 모델은 판단력, 정직성, 도구 호출 정밀도를 개선하여 복잡한 다단계 에이전트 워크로드에서 높은 신뢰성을 제공합니다.

핵심 포인트

SWE-Bench Pro 및 Computer use 벤치마크에서 업계 최고 성능 기록
코드 결함을 스스로 인지하고 보고하는 정직성 기능 대폭 강화
작업 난이도에 따라 사고 시간을 조절하는 노력 제어(Effort Control) 도입
에이전트적 맥락에서의 도구 호출 및 추론 능력 향상

Anthropic은 오늘인 2026년 5월 28일, Claude Opus 4.8을 출시했습니다. 만약 여러분이 에이전트 시스템 (Agentic systems), 코딩 어시스턴트 (Coding assistants), 또는 현실 세계에서 지속적이고 다단계적인 행동을 수행하기 위해 AI 모델에 의존하는 제품을 구축하고 있다면, 이번 출시는 주목할 가치가 있습니다.

Opus 4.8은 완전한 세대적 도약은 아닙니다. Anthropic은 이를 이전 모델에 대한 "겸손하지만 실질적인 개선 (a modest but tangible improvement)"이라고 정의합니다. 하지만 수십 개의 연속적인 단계에 걸쳐 신뢰성이 복리로 작용하는 에이전트적 맥락 (Agentic contexts)에서는, 판단력, 정직성, 그리고 도구 호출 (Tool-calling) 정밀도의 미세한 향상만으로도 의미 있게 더 나은 제품으로 전환됩니다.

오늘 출시된 내용과 그것이 중요한 이유는 다음과 같습니다.

Opus 4.8 벤치마크 분석

Anthropic은 전문적이고 에이전트적인 워크로드 (Workloads)에 가장 중요한 5가지 카테고리에 걸친 벤치마크 결과를 발표했습니다:

벤치마크	Claude Opus 4.8	Claude Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro (에이전트 코딩)	69.2%	64.3%	58.6%	54.2%
...

출처: Anthropic, 2026년 5월 28일

몇 가지 중요한 참고 사항:

에이전트 코딩 (Agentic coding, SWE-Bench Pro): Opus 4.8이 69.2%로 테스트된 모든 모델 중 선두를 달리고 있습니다.
터미널 코딩 (Terminal coding, Terminal-Bench 2.1): 이 분야에서는 GPT-5.5가 78.2%로 앞서고 있습니다. Opus 4.8은 74.6%를 기록했습니다.
컴퓨터 사용 (Computer use, OSWorld-Verified): 83.4%를 기록하며 Opus 4.8이 이 카테고리에서 최고치를 차지했습니다.
추론 (Reasoning): 도구 사용 시 57.9%를 기록했습니다. 테스트된 4개 모델 중 가장 우수합니다.

벤치마크를 넘어선 새로운 기능

기능으로서의 정직성 (Honesty as a Feature)

Opus 4.8은 Opus 4.7에 비해 자신의 코드에 있는 결함을 알리지 않고 그냥 넘어갈 확률이 약 4배 낮습니다. 초기 테스터들은 이 모델이 계획이 타당하지 않을 때 반론을 제기할 가능성이 더 높고, 되돌릴 수 없는 변경을 수행하기 전에 명확한 질문을 던질 가능성이 더 높다고 설명합니다.

노력 제어 (Effort Control)

Opus 4.8은 기본(high), extra, max의 노력 수준(effort levels)을 도입합니다. 노력이 높을수록 더 많은 사고 시간(thinking time)을 할애하며, 어려운 작업에서 더 나은 결과를 제공합니다. 장시간 실행되는 비동기 워크플로(async workflows)의 경우, Anthropic은 "extra" 설정을 권장합니다.

Fast Mode: 2.5배 빠른 속도, 이제 3배 더 저렴하게

Opus 4.8의 Fast mode는 일반 모드보다 2.5배 빠른 속도로 실행됩니다. Fast mode의 가격은 이제 입력 토큰 100만 개당 $10, 출력 토큰 100만 개당 $50로 책정되었으며, 이는 이전 Opus 모델의 Fast mode보다 3배 더 저렴합니다.

Claude Code의 동적 워크플로 (Dynamic Workflows)

Opus 4.8과 함께 출시되는 Dynamic Workflows는 Max, Team, Enterprise 플랜 사용자에게 리서치 프리뷰(research preview)로 제공됩니다.

단일 에이전트(agent)가 순차적으로 작업하는 대신, 이제 Claude Code는 작업을 사전에 계획하고 단일 세션 내에서 수십 개에서 수백 개의 병렬 서브 에이전트(subagents)를 가동할 수 있습니다. Bun의 제작자인 Jarred Sumner는 Dynamic Workflows를 사용하여 Bun을 Zig에서 Rust로 재작성했습니다: 750,000줄의 Rust 코드, 테스트 스위트(test suite) 통과율 99.8%, 11일 만에 완료되었습니다.

Cosmic의 Opus 4.8 활용 방식

Cosmic은 이제 높은 추론(high-reasoning)이 필요한 콘텐츠 및 코드 작업에 권장 모델로 Claude Opus 4.8을 사용합니다. 콘텐츠, 코드, 컴퓨터 사용(Computer Use), 팀 유형에 걸친 Cosmic의 AI 에이전트(AI Agents)는 모두 Claude 모델을 기반으로 작동합니다.

또한 Cosmic은 Claude Code 및 Cursor에 직접 연결되는 MCP 서버를 출시합니다. Opus 4.8의 향상된 도구 호출(tool-calling) 효율성 덕분에 이러한 통합은 실제 사용 시 눈에 띄게 더 빠른 응답성을 보여줍니다.

Claude Opus 4.8을 기반으로 구축 중이며 이를 뒷받침할 콘텐츠 레이어가 필요하다면, Cosmic에서 무료로 시작하거나 간단한 소개 미팅을 예약하세요.

출처: Introducing Claude Opus 4.8, Dynamic Workflows in Claude Code

AI 자동 생성 콘텐츠

원문 바로가기