Claude Opus 4.8: 벤치마크, Fast Mode, 그리고 실제로 변경된 점
요약
Anthropic이 기존 Opus 4.7과 동일한 가격으로 성능이 대폭 향상된 Claude Opus 4.8을 출시했습니다. 이 모델은 GDPval-AA 리더보드 1위를 기록했으며, 토큰 소비를 35% 줄이면서도 SWE-bench Pro에서 69.2%의 높은 성적을 달성했습니다.
핵심 포인트
- GDPval-AA 실무 리더보드에서 1890 Elo로 1위 달성
- 이전 모델 대비 출력 토큰 사용량 35% 절감
- 최대 2.5배 빠른 속도를 제공하는 Fast Mode 도입
- 대화 중간 시스템 메시지 삽입 기능으로 비용 절감 가능
- 적응형 사고(Adaptive thinking) 및 노력(effort) 파라미터 지원
Claude Opus 4.8: 벤치마크, Fast Mode, 그리고 실제로 변경된 점
요약 (TL;DR) — Anthropic은 2026년 5월 28일, 4.7 버전과 동일한 $5/$25 가격으로 Claude Opus 4.8을 출시했습니다. 이 모델은 Artificial Analysis의 GDPval-AA 실무 리더보드에서 1890 Elo를 기록하며 1위를 차지했습니다(GPT-5.5보다 +121, 4.7보다 +137 높음). 또한 SWE-bench Pro에서 69.2%를 달성했으며, 4.7 버전보다 출력 토큰 (output tokens)을 약 35% 적게 사용하면서도 이를 수행했습니다.
Anthropic이 출시한 내용
Claude Opus 4.8은 2026년 5월 28일에 출시되었으며, Opus 4.7과 동일한 정가(입력 100만 토큰당 $5, 출력 100만 토큰당 $25)를 유지합니다. Claude API에서는 기본적으로 1M-토큰 컨텍스트 윈도우 (context window)를 제공하며 (Microsoft Foundry에서는 200K), 최대 출력 토큰은 128K입니다.
핵심적인 차별점은 이전 모델에 비해 토큰 소비를 줄이면서도 우수한 성능을 달성했다는 점입니다.
GDPval-AA 결과
Opus 4.8 (최대 노력 모드)은 1890 Elo로 데뷔하며, 2위인 GPT-5.5를 121포인트 차이로 따돌렸고 이전 모델보다 137포인트 높았습니다.
Artificial Analysis의 독립적인 평가에서는 44개 직업군에 걸친 실제 경제 업무 과업(real economic work tasks)을 대상으로 모델을 테스트했으며, 각 모델에 에이전트 루프 (agentic loop) 내에서 셸 액세스 (shell access) 및 웹 브라우징 능력을 부여했습니다.
Opus 4.8은 Opus 4.7보다 작업당 턴 (turns) 수는 15% 적게, 출력 토큰 (output tokens)은 35% 적게 사용하여 이 점수에 도달했습니다.
경쟁 모델과의 벤치마크 비교
| 벤치마크 (Benchmark) | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Pro | 69.2% | 64.3% | 58.6% | 54.2% |
| ... |
GPT-5.5는 여전히 Terminal-Bench 2.1에서 승리하고 있습니다 (78.2% vs 74.6%). 만약 귀하의 워크로드 (workload)가 가공되지 않은 터미널 명령 시퀀스 (terminal command sequences)에 치중되어 있다면, 이는 단순한 반올림 오차가 아닌 실제 데이터 포인트입니다.
내부적인 새로운 변화
Fast Mode. 프리미엄 가격으로 초당 출력 토큰 (output tokens per second)을 최대 2.5배 더 빠르게 제공하는 연구용 프리뷰 (research preview)입니다.
대화 중간 시스템 메시지 (Mid-conversation system messages). 이제 사용자는 사용자 턴 (user turns) 이후에 시스템 메시지를 삽입할 수 있습니다. 이를 통해 이전 턴의 프롬프트 캐시 히트 (prompt-cache hits)를 보존하고 입력 비용을 절감할 수 있습니다.
적응형 사고 (Adaptive thinking), 기본 노력 (effort) 설정 high. 확장된 사고 예산 (thinking budgets) 대신 thinking: {"type": "adaptive"}와 effort 파라미터를 사용하세요.
더 나은 도구 트리거링 (tool triggering) 및 압축 (compaction). 더 적은 압축 횟수와 더 나은 복구 능력을 통해 장기적 관점의 에이전트 코딩 (long-horizon agentic coding) 성능이 향상되었습니다.
Opus 4.8 프롬프팅: 실제로 변경된 점
이제 '노력 (Effort)'이 주요 조절 장치입니다. 코딩 및 에이전트 활용 사례의 경우 xhigh로 시작하고, 지능에 민감한 모든 작업에는 최소 high 설정을 유지하세요.
지시 사항을 문자 그대로 따릅니다. 모델이 지시 사항을 암묵적으로 일반화하거나 명시되지 않은 요청을 추론하지 않습니다.
도구 호출 (tool calls)보다 추론 (reasoning)을 우선시합니다. 노력 (effort) 수준을 high/xhigh로 높이면 도구 사용량이 실질적으로 증가합니다.
코드 리뷰 재현율 (recall)의 함정. Opus 4.8은 버그를 찾는 능력이 진정으로 향상되었습니다 (Anthropic의 평가에서 더 높은 정밀도(precision)와 재현율(recall) 기록). 하지만 만약 귀하의 리뷰 하네스 (review harness)가 "심각도가 높은 문제만 보고하라" 또는 "보수적으로 행동하라"고 설정되어 있다면, 4.8은 이전 모델들보다 그 지시를 더 충실히 따릅니다.
"가장 정직하다"는 주장
Anthropic은 Opus 4.8이 확신에 찬 허위 사실 생성 (confident fabrications)이 적고, 아첨 (sycophancy)이 줄었으며, 거절 (refusals)이 더 명확하다고 설명합니다.
동시 출시: Claude Code의 동적 워크플로 (Dynamic Workflows)
동적 워크플로 (Dynamic workflows)를 통해 Claude는 단일 세션 내에서 수십 개에서 수백 개의 병렬 서브 에이전트 (subagents)를 조율할 수 있습니다.
주요 사례로는 Bun을 Zig에서 Rust로 포팅하는 작업이 포함되었습니다. 약 750,000줄의 코드를 11일 만에 99.8%의 테스트 스위트 통과율로 완료했습니다.
두 가지 제한 사항이 있습니다: 계획 기반 제어 (plan-gated) 방식입니다 (동적 워크플로는 Claude Code Max, Team, Enterprise 플랜에서 실행됨). 또한 토큰 소비량이 일반 세션보다 실질적으로 더 높습니다.
ofox.ai를 통해 Opus 4.8에 접속하는 방법
모델 ID는 anthropic/claude-opus-4.8이며, 별도의 결제 없이 동일한 OpenAI 호환 엔드포인트 (OpenAI-compatible endpoint)를 통해 접속할 수 있습니다.
import anthropic
client = anthropic.Anthropic(
...
판결
Opus 4.8은 가격에 대한 별도의 조건(asterisk)이 없는 보기 드문 업그레이드입니다. 동일한 $5/$25 가격을 유지하면서도 코딩 (coding) 및 컴퓨터 사용 (computer-use) 전반에서 더 높은 점수를 기록했으며, 독립적인 실제 작업 리더보드 (real-work leaderboard)의 최상단을 차지하였고, 작업당 출력 토큰 (output tokens) 수는 더 줄어들었습니다.
원문은 ofox.ai/blog에 게시되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기