Claude Opus 4.8 테스트: Ultra Code와 Dynamic Workflows

Claude Opus 4.8은 Anthropic의 새로운 최상위 모델입니다. 이 모델은 Ultra Code와 Dynamic Workflows를 통해 전체 에이전트 팀을 자율적으로 제어합니다. 기업에 즉각적이고 측정 가능한 이점을 제공하는 7가지 혁신 사항을 소개합니다.

Claude Opus 4.8이 개선된 점

언뜻 보기에 Claude Opus 4.8은 작은 진보처럼 보일 수 있습니다. 벤치마크(Benchmarks) 결과는 Opus 4.7에 비해 약간의 향상만을 보여줍니다. 하지만 실제 환경에서의 도약은 훨씬 더 큽니다.

SWE-bench Pro에서 이 모델은 작업의 69.2%를 해결합니다. 이로써 GPT-5.5를 확실히 앞섭니다. Artificial Analysis는 현재 이 모델을 역대 가장 지능적인 모델로 선정했습니다.

가격은 Opus 4.7과 동일하게 유지됩니다. 생성된 토큰(Token)당 비용은 Opus 4.8이 오히려 더 저렴합니다. 따라서 기업은 예산을 늘리지 않고도 더 높은 성능을 얻을 수 있습니다.

일상 업무를 위한 7가지 혁신 사항

OSWorld 벤치마크에서 이 모델은 83.4%를 달성했습니다. 여기서 AI는 마우스와 키보드를 사용하여 독립적으로 컴퓨터를 조작합니다. 엑셀 피벗 테이블(Excel Pivot Tables)을 만들고 Slack 메시지를 작성합니다.

패스트 모드(Fast Mode)는 이제 이전보다 3배 더 저렴하게 작동합니다. 적응형 사고(Adaptive Thinking) 기능을 드디어 끌 수 있게 되었습니다. 사용자는 low부터 max까지 5단계의 고정된 단계를 직접 선택할 수 있습니다.

Vending Bench에서는 Opus 4.8의 점수가 낮아졌습니다. 그 이유는 더 나은 행동 방식 때문입니다. 모델이 더 이상 몰래 가격을 협상하지 않습니다. 윤리적 경계(Ethical boundaries)를 준수합니다.

Dynamic Workflows 및 Ultra Code 활용

가장 강력한 두 가지 기능은 Dynamic Workflows와 Ultra Code입니다. Dynamic Workflows를 사용하면 더 이상 하위 에이전트(Sub-agents)를 수동으로 시작할 필요가 없습니다. 시스템이 수십 개에서 수백 개의 에이전트를 스스로 오케스트레이션(Orchestrates)합니다.

Ultra Code를 'extra high' 이상의 노력 단계(Effort-Stufe)로 활성화한 후, 'Workflow' 명령을 내립니다. 그러면 에이전트들이 하나의 작업을 위해 몇 시간 동안 연속해서 작업합니다.

우리 팀의 사례가 그 효과를 보여줍니다. 에이전트들은 밤새 202개의 포털을 스캔했습니다. 그리고 agentmail을 통해 50개의 디렉토리에 우리의 소프트웨어인 Voicely를 등록했습니다. 이에 대한 더 자세한 맥락은 우리의 AI-Automations-Manager 개요에서 확인할 수 있습니다.

Codex의 자기 개선 에이전트 (Self Improving Agents)

OpenAI는 Codex를 통해 유사한 트렌드를 추구하고 있습니다. 세무사 에이전트들은 그곳에서 폐쇄 루프 (closed loop) 내에서 스스로를 개선합니다. 인간이 초안을 수정하면, AI는 모든 편차를 측정합니다.

Codex는 유사한 오류를 그룹화하고 명확한 검증 목표를 도출합니다. 테스트 결과, 정확도는 6주 만에 25%에서 86%로 상승했습니다. 7,000건의 세금 신고서 작업에서 시스템은 최대 97%의 정확도에 도달했습니다.

LLM 이후의 다음 단계로서의 세계 모델 (World Models)

많은 연구자들은 대규모 언어 모델 (LLM)만으로 계속 나아갈 수 있을지 의문을 제기합니다. 그에 대한 해답 중 하나가 세계 모델 (World Models)입니다. 스타트업 Odyssey는 이를 위해 멀티 에이전트 세계 모델 (Multi-Agent-Weltmodell)인 Agora-1을 발표했습니다.

Dr. Jenny Seidenschwarz는 인터뷰에서 그 차이점을 설명합니다. 세계 모델은 단순히 다음 단어를 예측하는 것에 그치지 않습니다. 그것은 픽셀 공간 (Pixel-Raum) 내에서 세계의 완전한 상태를 모델링합니다.

Agora-1에서는 최대 4명의 행위자 (Akteure)가 동시에 장면을 변화시킵니다. 이는 로보틱스 (Robotik) 분야에서 핵심적입니다. 로봇은 컵이 떨어지는 것과 같은 물리적 규칙을 기초 지식으로 학습합니다.

휴머노이드 로봇과 에이전트 경제

Boston Dynamics는 Atlas를 통해 축구장에서 깔끔한 라보나 (Rabona) 킥을 선보였습니다. 중국은 세계 최초로 로봇을 위한 디지털 신분증을 발급하고 있습니다. 이미 100개 이상의 제조사로부터 28,000대 이상의 기기가 등록되었습니다.

여기서 이번 주의 비즈니스 아이디어가 도출됩니다. 당신이 인간의 어떤 문제를 해결할 수 있는지만 묻지 마십시오. 당신이 에이전트를 위한 MCP (Model Context Protocol)로서 어떤 소프트웨어를 제공할 수 있을지를 물으십시오.

결론: Claude Opus 4.8이 기업에 의미하는 바

Claude Opus 4.8의 가장 큰 레버리지는 벤치마크 (Benchmark)에 있지 않습니다. 그것은 Ultra Code와 동적 워크플로 (Dynamic Workflows)의 결합에 있습니다. 이제 에이전트들은 장시간 소요되는 작업을 백그라운드에서 자율적으로 수행합니다.

AI를 수익성 있게 활용하려면 두 가지 기능을 모두 테스트해야 합니다. 자율적인 자기 개선 루프 (Self-Improving-Loops)로의 트렌드가 가속화되고 있습니다. Agora-1과 같은 세계 모델 (World Models)은 이미 다음 단계의 도래를 암시하고 있습니다.

자주 묻는 질문 (FAQ)

Claude Opus 4.8에서 무엇이 새로워졌나요?

Claude Opus 4.8은 일곱 가지의 실용적인 혁신을 가져왔습니다. 가격은 Opus 4.7과 동일하게 유지되지만, 토큰당 비용은 오히려 더 저렴해졌습니다. 세 배 더 저렴해진 패스트 모드 (Fast Mode)와 다섯 단계의 고정된 사고 단계 (Thinking-Stufen)가 새롭게 도입되었습니다. 가장 강력한 핵심 동력은 다이내믹 워크플로 (Dynamic Workflows)와 울트라 코드 (Ultra Code) 모드입니다. 이를 통해 모델은 수동 설정 없이 전체 에이전트 팀을 오케스트레이션 (Orchestrate)합니다.

다이내믹 워크플로 (Dynamic Workflows)란 무엇인가요?

다이내믹 워크플로는 서브 에이전트 (Subagent)를 자동으로 시작하고 제어합니다. 더 이상 에이전트 팀을 직접 구축할 필요가 없습니다. 시스템이 수십 개에서 수백 개의 에이전트를 실행하고 작업을 분배합니다. 이 에이전트들은 하나의 작업을 위해 몇 시간 동안 연속해서 작업합니다. 따라서 백그라운드에서 실행되는 장시간 소요되는 작업에 적합합니다.

Claude Opus 4.8의 벤치마크 성능은 어떠한가요?

SWE-bench Pro에서 Claude Opus 4.8은 약 69.2%의 과제를 해결합니다. 이로써 GPT-5.5를 앞섭니다. OSWorld에서는 83.4%를 달성하며 인간 참조값을 능가합니다. Vending Bench에서는 더 정직하게 행동하기 때문에 성능이 다소 하락합니다. Artificial Analysis는 이를 현재 사용 가능한 가장 지능적인 모델로 선정했습니다.

세계 모델 (World Model)이란 무엇인가요?

세계 모델은 단순히 다음 단어를 예측하는 것에 그치지 않습니다. 종종 픽셀 공간 (Pixel-Raum) 내에서 환경의 전체 상태를 모델링합니다. 사용자는 생성된 장면과 직접 상호작용할 수 있습니다. 스타트업 Odyssey는 Agora-1 모델을 통해 이를 보여줍니다. 로보틱스 (Robotics) 분야를 위해 중력이나 잡기(Greifen)와 같은 물리적 기초 지식을 제공합니다.