
Claude Opus 4.8이란 무엇인가? Dynamic Workflows와 최신 벤치마크 도해 완전 정리
요약
Anthropic의 최신 모델인 Claude Opus 4.8의 성능과 주요 벤치마크 지표를 정리한 가이드입니다. SWE-bench, OSWorld, HLE 등 다양한 평가 지표를 통해 모델의 성능을 분석하고 Dynamic Workflows 개념을 설명합니다.
핵심 포인트
- Claude Opus 4.8의 주요 벤치마크 성능 수치 제공
- SWE-bench Verified 및 OSWorld 등 최신 평가 지표 정리
- Dynamic Workflows의 에이전트 협업 메커니즘 설명
- 모델 버전 간 성능 향상 폭 비교 분석
본 기사는 「AI 실험 리포트 Vol.0 (Claude Opus 4.8 と Dynamic Workflows)」의 부교재(용어집) 도해·완전판입니다. 본문에 등장하는 벤치마크(Benchmark) 명칭이나 에이전트(Agent) 용어를 그림과 함께, 비전문가도 따라갈 수 있도록 정리했습니다. 정의는 「대략적으로 이해하는 것」을 우선으로 합니다. 정확한 사양은 각 공식 문서(System Card 등)를 참조해 주십시오.
새로운 AI 모델 기사에는 SWE-bench Pro나 GDPval, Dynamic Workflows와 같이 생소한 단어들이 한꺼번에 등장합니다. 본고에서는 그것들을 「무엇을 측정하는가/의미하는가」 + 「본문에서의 수치」를 세트로 하여 도해와 함께 나열했습니다. 위에서부터 읽을 필요는 없으며, 관심 있는 용어만 골라 보시기 바랍니다.
먼저, 본고에 등장하는 벤치마크를 「무엇을 측정하는가」에 따라 5가지로 나누어 조망합니다. 개별 정의는 이후 각 섹션에 있습니다.
| 용어 | 의미 |
|---|---|
| Claude Opus 4.8 | Anthropic의 최상위 모델 최신 버전 (2026년 5월 28일 공개). 본 시리즈 Vol.0의 주인공. |
| ... | |
![]() |
그림 2. Claude Opus의 출시 계보 (4.7→4.8은 불과 41일)
| 용어 | 의미 |
|---|---|
| SWE-bench Verified | 실제 GitHub 과제(버그 수정 등)를 끝까지 해결할 수 있는지 측정하는 표준 벤치마크. 사람이 검증한 500문제. 이미 포화 상태에 가까움 (본고: 4.8 = 88.6%). |
| ... | |
| 용어 | 의미 |
| --- | --- |
| OSWorld-Verified | 실제 OS (Ubuntu 등의 가상 머신) 상에서 문서 편집, 웹 브라우징, 파일 조작과 같은 현실적인 PC 작업을 수행할 수 있는지 측정 (본고: 4.8 = 83.4%). |
| ... | |
| 용어 | 의미 |
| --- | --- |
| HLE (Humanity's Last Exam) | 각 분야의 전문가 수준의 초고난도 문제를 모은, 현재 가장 어려운 일반 추론 벤치마크 중 하나 (본고: 도구 미사용 시 4.8 = 49.8%). |
| ... |
각 벤치마크의 실제 수치 (Opus 4.7 / 4.8 / 타사)를 정리하면 다음과 같습니다. '연한 색'은 4.8이 1위가 아닌 항목입니다.

그림 3. 주요 벤치마크 비교 (Claude Opus 4.7 vs 4.8)
| 용어 | 의미 |
|---|---|
| Dynamic Workflows | Claude Code의 신기능 (리서치 프리뷰). 상위 에이전트(Parent Agent)가 처리를 동적으로 구성하고, 다수의 하위 에이전트(Sub-agent)를 병렬 실행하며, 적대적으로 검증하여 수렴할 때까지 반복하는 메커니즘. |
| ... | |
| 그림 4. Dynamic Workflows의 처리 플로우 |
| 용어 | 의미 |
|---|---|
| 에포트 (effort) | 모델이 태스크에 들이는 「노력」(사고량)의 단계. low / medium / high / xhigh / max가 있으며, Opus 4.8의 기본값은 high. |
| ... | |
| 용어 | 의미 |
| --- | --- |
| 할루시네이션 (Hallucination) | 그럴듯하지만 사실이 아닌 출력을 생성해 버리는 현상. |
| ... |
본고의 「신뢰성」과 Dynamic Workflows는 사실 같은 목적——AI의 과신을 어떻게 억제할 것인가——에 대한, 층을 달리한 답변으로 읽을 수 있습니다.

그림 5. 과신을 억제하는 이층 구조 (모델 단독의 정직함 × 복수 에이전트의 상호 반증)
용어를 이해하면 벤치마크 표는 「어디가 정말로 성장했는가」를 읽는 도구가 됩니다. 본편 Vol.0에서는 이 용어를 바탕으로 능력·신뢰성·비용의 3축으로 Claude Opus 4.8을 정리하고 있습니다. 함께 확인해 보시기 바랍니다.
- Anthropic 「Introducing Claude Opus 4.8」: https://www.anthropic.com/news/claude-opus-4-8
- OpenAI 「GDPval」: https://openai.com/index/gdpval/
- Artificial Analysis 「GDPval-AA Leaderboard」: https://artificialanalysis.ai/evaluations/gdpval-aa
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기