
정신을 차려보니 Opus 4.8이 등장해 있어서, 신기능 및 이전 버전과의 차이점을 정리해 보았습니다
요약
Anthropic이 출시한 Claude Opus 4.8의 주요 스펙과 신기능을 정리한 글입니다. 코딩 성능 향상, AI 에이전트 능력 강화, 그리고 모델의 성실함(Honesty) 개선이 핵심입니다.
핵심 포인트
- CursorBench 등 벤치마크에서 코딩 성능 향상 확인
- Dynamic Workflows를 통한 대규모 코드베이스 대응 강화
- 자신의 오류를 검출하고 보고하는 성실함(Honesty) 개선
- 추론 리소스 레벨 선택 기능 및 Fast Mode 도입
2026년 5월 28일, Anthropic이 Claude Opus 4.8을 출시했습니다.
이전 버전인 Opus 4.7으로부터 약 6주 만의 업데이트입니다. 역시 너무 빠르네요...
제 개인적인 메모로서의 의미도 있지만, 이번에는 Claude Opus 4.8의 주요 스펙과 신기능을 최대한 알기 쉽게 정리했습니다.
정보원은 Anthropic 공식 페이지와 Anthropic이 공개한 System Card (244매의 PDF 자료)를 기반으로 하고 있습니다.
먼저, 숫자로 알 수 있는 스펙을 정리해 두겠습니다.
| 항목 | 내용 |
|---|---|
| 모델 ID | claude-opus-4-8 |
| ... |
요금은 Opus 4.7과 변함이 없습니다. 기존 Opus 사용자에게는 추가 비용 없이 개량된 모델을 이용할 수 있는 업데이트입니다.
Opus 4.8에서 가장 주목해야 할 점 중 하나는 코딩 성능의 향상입니다.
Cursor사의 독자적인 벤치마크인 「CursorBench」에서는 Opus 4.7의 각 노력 레벨을 상회하는 결과가 보고되고 있습니다.
또한, 대규모 코드베이스(Codebase)에 대한 대응도 강화되어, 후술할 「Dynamic Workflows」와 결합함으로써 더욱 대규모인 리팩터링(Refactoring)이나 이관 작업에 대응하기 쉬워졌습니다.
「AI 에이전트 (AI Agent)」란, AI가 여러 도구를 이용하면서 긴 태스크를 자율적으로 실행하는 메커니즘입니다.
Anthropic이 소개하고 있는 「Super-Agent」 벤치마크에서는 Opus 4.8이 매우 높은 완수율을 보여주고 있으며, 장시간의 태스크 처리나 복잡한 워크플로 (Workflow) 실행 능력이 향상되었습니다.
단, 벤치마크마다 평가 축이 다르기 때문에 모든 용도에서 타 모델을 능가한다는 것을 의미하지는 않습니다.
Anthropic이 이번에 특히 강조하고 있는 것이 「Honesty (성실함)」의 개선입니다.
공식 발표에 따르면, Opus 4.8은 자신의 코드나 출력에 문제가 있는 경우, 이전 모델보다 높은 확률로 문제를 검출하고 보고할 수 있게 되었습니다.
다만, System Card에서는 여전히,
- 잘못된 추측을 사실로서 진술함
- 사용자에게 수정된 후에도 동일한 오류를 반복함
- 충분한 검증을 수행하지 않고 결론을 내림
과 같은 실패 사례도 다수 공개되어 있습니다.
따라서 「자기 수정 능력은 개선되었지만, 여전히 인간에 의한 확인이 중요하다」는 이해가 적절할 것입니다.
Claude Code에 「Dynamic Workflows」가 연구 프리뷰(Research Preview)로서 추가되었습니다.
이는 Claude 스스로가 태스크를 분해하고, 여러 서브 에이전트 (Sub-agent)를 병렬 실행하여 결과를 통합하는 메커니즘입니다.
Anthropic은 대규모 코드베이스의 이관이나 리팩터링 등의 활용 사례를 소개하고 있지만, 현시점에서는 연구 프리뷰 단계이므로 중요한 작업에 대해서는 인간의 리뷰가 권장됩니다.
참고로, 이 기능은 Claude Code for Enterprise・Team・Max 플랜 사용자에게 제공됩니다.
claude.ai 상에서 모델이 답변에 얼마나 많은 추론 리소스를 사용할지 사용자가 선택할 수 있게 되었습니다.
설정 가능한 레벨은 다음과 같습니다.
- Low
- Medium
- High
- Extra
- Max
Claude Code에서는 「High」 대신 「xhigh」라는 표기가 사용되고 있습니다.
높은 레벨일수록 답변 품질의 향상을 기대할 수 있지만, 그만큼 응답 시간이나 토큰 (Token) 소비량도 증가합니다.
Opus 4.8에는 「Fast Mode」가 마련되어 있습니다.
Anthropic에 따르면, 이전 세대와 비교하여 요금이 약 3분의 1로 인하되었습니다.
요금은 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러입니다.
고속 응답이 필요한 용도에서는 비용 효율의 개선을 기대할 수 있습니다.
Computer Use 관련 성능도 개선되었습니다.
Anthropic이 공개한 Online-Mind2Web 벤치마크에서는 84%라는 높은 점수를 달성하였으며, 브라우저 조작이나 GUI 조작 태스크에서 진보가 보입니다.
일부 벤치마크에서는 GPT-5.5나 Opus 4.7을 상회하는 결과도 보고되고 있습니다.
Opus 4.7 (2026년 4월 16일 출시)과의 주요 차이점을 정리합니다.
비공개 정보도 있기 때문에, Opus 4.8 쪽에는 Opus 4.7을 베이스라인으로 한 공칭값을 기재하고 있습니다.
| 비교 항목 | Opus 4.7 | Opus 4.8 |
|---|---|---|
| 출시일 | 2026년 4월 16일 | 2026년 5월 28일 |
| ... |
또한, Anthropic의 System Card에 따르면, Opus 4.8은 Opus 4.7보다 고성능인 반면, 내부 평가용 모델인 「Claude Mythos Preview」와 비교하면 동등하거나 약간 뒤처지는 능력 수준으로 평가되고 있습니다.
Claude Opus 4.8은 다음과 같은 방법으로 이용할 수 있습니다.
다음 플랜에서 이용 가능합니다.
- Pro
- Max
- Team
- Enterprise
Free 플랜에서는 이용할 수 없습니다.
다음 플랫폼을 통해서도 이용할 수 있습니다.
- Anthropic API
- Amazon Bedrock
- Google Vertex AI
- Microsoft Foundry
API에서는 claude-opus-4-8을 지정합니다.
Claude Opus 4.8의 주요 포인트를 다시 정리합니다.
- 2026년 5월 28일 출시
- API 요금은 Opus 4.7과 동일하게 유지 (입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러)
- 코딩 성능과 에이전트 (Agent) 성능이 향상
- 자기 오류 탐지 및 성실성 (Honesty) 관련 개선 실시
- Dynamic Workflows가 연구 프리뷰 (Research Preview)로 추가
- Fast Mode의 가격이 대폭 인하
- Computer Use 성능도 향상
위치상으로는 Opus 4.7을 개선한 일반 공개용 최상위 모델이라는 위치입니다.
한편, 일부 평가에서는 Mythos Preview가 더 높은 능력을 보여주고 있으며, 이 모델과 동등한 수준의 AI가 수주 내에 출시될 예정이라고 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기