Claude Opus 4.8의 신기능 및 4.7과의 차이점 정리｜Fast mode/Dynamic Workflows

요약

Anthropic의 Claude Opus 4.8 출시와 함께 Claude Code의 Dynamic Workflows 기능이 도입되었습니다. Opus 4.8은 코딩 성능 향상과 더불어 코드 결함률을 4배 낮추고 정직성을 강화했습니다.

핵심 포인트

Terminal-Bench 2.1에서 92.3%의 높은 코딩 스코어 달성
코드 결함 인지 확률 개선으로 리뷰 비용 절감 가능
Dynamic Workflows 도입으로 최대 1,000개의 서브 에이전트 활용
Fast mode의 속도 2.5배 향상 및 비용 3배 절감

Terminal-Bench 2.1에서 92.3%. Claude Opus 4.8이 2026년 5월 28일에 공개되었을 때 보여준 코딩 스코어다.

주목해야 할 점은 숫자 그 자체보다 간격으로, 이전 모델인 Opus 4.7(4월 16일 공개)로부터 불과 41일 만의 출시가 된다. 요금은 4.7과 동일하게 유지하면서, 코딩, 에이전트(Agent), 정직성(Honesty)의 각 측면에서 업데이트가 이루어졌다.

이 기사에서는 Anthropic의 공식 발표와 Claude Code의 changelog를 바탕으로, Opus 4.8의 신기능과 4.7으로부터의 변경점을 「벤치마크」, 「정직성」, 「Dynamic Workflows」, 「fast mode와 요금」의 4가지 포인트로 정리한다.

벤치마크: 코딩과 에이전트의 역량 강화

공식적으로 제시된 주요 스코어를 나열한다.

벤치마크	영역	Opus 4.8
Terminal-Bench 2.1	코딩	92.3%
...

터미널 상의 코딩과 화면을 조작하는 에이전트 계열 모두에서 높은 수치가 나오고 있다. 보완 정밀도라기보다는 「태스크를 끝까지 완수하는」 방향의 지표로, 장시간의 자율 작업(Autonomous work)을 맡길 수 있는 범위가 넓어졌다는 해석이 가능하다.

핵심은 「정직성」일지도 모른다

개인적으로 영향력이 클 것이라고 생각하는 부분은 벤치마크 숫자보다 품질 측면의 변화다. 공식은 Opus 4.8에 대해, 자신이 작성한 코드의 결함을 놓칠 확률이 이전 모델 대비 약 1/4(4배 감소) 되었다고 설명한다.

나아가 「적절한 질문을 던지기」, 「자신의 실수를 인지하기」, 「작업의 불확실성을 신고하기」와 같은 동작이 개선되었으며, 정렬(Alignment) 평가에서는 「사용자의 자율성을 존중하고, 사용자의 최선을 위해 움직인다」와 같은 친사회적(Prosocial) 지표에서 새로운 높은 수준에 도달했다고 한다.

AI 생성 코드를 리뷰를 전제로 활용하는 사람일수록 이 차이는 은근하게 체감된다. 속도나 지능의 향상은 화려하지만, 「가만히 있다가 틀리는」 확률이 낮아지는 것은 리뷰 비용과 직결되기 때문이다.

Dynamic Workflows가 Claude Code에 도입되다

Opus 4.8과 같은 날, Claude Code는 v2.1.154(7가지 신기능을 포함한 대규모 업데이트)에서 Dynamic Workflows(research preview)를 탑재했다(changelog, TechCrunch).

워크플로우 작성을 요청하면, Claude 스스로 단계(Step)를 구성하고, 수십~수백 개의 서브 에이전트(Sub-agent)를 배후에서 병렬로 조정하여 큰 태스크를 처리하는 메커니즘이다. MarkTechPost의 보도에 따르면 1 세션당 최대 1,000개의 서브 에이전트 상한이 있다고 한다. 실행 상황은 /workflows 명령어로 확인할 수 있다.

서브 에이전트를 수동으로 설계하고 배치하던 단계에서, 「설계 자체를 모델에 맡기는」 단계로 격상된 모습이다. research preview 단계이므로, 우선은 동작을 관찰하는 페이즈라고 보고 있다.

fast mode와 요금: 속도의 가격이 낮아졌다

요금 측면은 일반 모드가 **입력 $5 / 출력 $25 (100만 토큰당)**로 4.7과 동일하게 유지된다.

반면 fast mode는 2.5배 빨라졌으며, 기존 fast mode 대비 3배 저렴해졌다(fast의 요금은 입력 $10 / 출력 $50). 「속도는 비싸다」라는 전제가 깨지기 시작했으며, 레이턴시(Latency)를 중시하는 용도에서 선택지가 늘어났다.

더불어 effort(사고에 얼마나 할애할지)의 취급도 정리되어, Claude Code 상에서 Opus 4.8은 high effort가 기본값이며, 특히 어려운 태스크를 위해 xhigh가 준비되어 있다. effort를 높일수록 더 깊고 빈번하게 생각하도록 설계되었기 때문에, 품질과 토큰 소비는 트레이드오프(Trade-off) 관계가 된다.

주의사항

Dynamic Workflows는 research preview이다. 실제 운영 워크플로우에 도입하기 전에 동작을 확인해야 한다.
effort의 기본값이 high인 만큼, 별도로 지정하지 않으면 토큰 소비가 늘어날 수 있다. 비용 관리가 필요한 상황에서는 명시적으로 낮추는 선택도 필요하다.
벤치마크나 4배와 같은 수치는 공식 및 각 미디어의 공개 값이며, 직접적인 수동 검증 결과가 아니라는 점에 주의해야 한다(The New Stack의 해설).

요약

Opus 4.8의 업데이트는 「코딩/에이전트 (Coding/Agent) 점수 향상」과 「정직성 (Honesty) 개선」, 그리고 Claude Code 측의 「Dynamic Workflows (동적 워크플로우)」라는 세 가지 핵심 축으로 보인다. 특히 결함 간과율이 1/4로 줄어든 점은, AI에게 코드를 맡기는 운영의 신뢰 비용을 낮추는 방향으로의 변화다.

41일이라는 짧은 간격은, 추적하는 측에 「전제를 매달 업데이트하는」 운영을 요구한다. 우선은 Claude Code를 통해 effort의 동작과 Dynamic Workflows를, 무료 및 공개 범위 내에서 확인해 보는 것이 차이점을 파악하는 가장 빠른 경로가 될 것이다.

Discussion

AI 자동 생성 콘텐츠

원문 바로가기