
[이벤트 정리] Code with Claude 2026 Tokyo — Fable 5 / Mythos 5 발표와 에이전트 개발의 최전선
요약
Anthropic의 Code with Claude 2026 Tokyo 이벤트에서 Claude Fable 5와 Mythos 5가 발표되었습니다. 신모델은 코딩 능력, 장시간 자율성, 코드 읽기 및 비전 성능이 대폭 강화되었으며, 에이전트 개발을 위한 하네스, 컨텍스트, 인프라의 중요성을 강조합니다.
핵심 포인트
- Claude Fable 5/Mythos 5 출시 및 SWE-bench Pro 최고 점수 달성
- 장시간 자율성(Long-horizon autonomy)과 수백만 토큰 컨텍스트 지원
- 에이전트 운영의 3요소: 하네스, 컨텍스트, 인프라 패키지화
- 모델 업그레이드에 유연한 아키텍처와 자동 평가 프로세스의 중요성
본 기사는 YouTube에서도 한정 배포되었던 이벤트 아카이브 영상의 내용을 자막을 바탕으로 요약·소개하는 것입니다. 자동 생성 자막 기반이므로 고유명사 등에 오류가 포함되어 있을 가능성이 있습니다.
- 이벤트 수 시간 전에
Claude Fable 5 / Mythos 5를 출시했음을 발표 - Anthropic은 "플랫폼 기업"이며, 개발자가 그 위에서 만들어내는 가치야말로 본질이라는 입장을 강조. 플랫폼의 API 볼륨은
전년 대비 약 17배 성장 - 일본·APAC의 사례로,
Rakuten(사내 에이전트를 부문 횡단으로 전개하여 릴리스 사이클이 분기 1회에서 2주 1회로 단축), Canva(Canva Code를 통해 비엔지니어라도 디자인 내에 인터랙티브한 미니 앱을 생성 가능하게 함)를 소개 - 모델의 진화 회고: 1년 전에는 "Opus 4가 기능을 통째로 구현할 수 있다"는 점이 놀라움이었음. 반년 전에는 에이전트가 밤새도록 자율 태스크를 완수. 2개월 전에는 Mythos가 OpenBSD의 소스 트리 전체를 읽고,
27년간 간과되어 온 취약성을 발견
신모델의 특징:
코딩 (Coding): SWE-bench Pro에서 최고 점수. 태스크가 길고 복잡해질수록 타 모델과의 격차가 벌어짐 -
단발적 정확성 (single-shot correctness): 복잡하지만 사양이 명확한 문제라면 한 번에 해결. "팀의 몇 주 치 업무를 1 프롬프트로"라는 초기 테스터의 목소리도 있음 -
장시간 자율성 (long-horizon autonomy): 단일 목표에 대해 며칠 동안 계속 실행되어도 일관성을 유지. 수백만 토큰에 달하는 태스크에서도 사양을 기억하며, 서브 에이전트(sub-agent) 관리도 비용 의식을 가지고 수행 가능 -
코드 읽기 능력: 쓰는 것뿐만 아니라 읽는 것이 더욱 특기. 장애 대응이나 리포지토리(repository) 이력 조사에 강함 -
비전 (Vision, 이미지 이해): 기술계 도표·차트·Web 앱 화면 판독이 업계 최고 수준
사이버 보안·생물·화학 분야에서의 악용 리스크가 높기 때문에, Mythos는 지금까지 소수 파트너 한정(Project Glasswing)으로 제공되어 왔습니다. Fable 5에서는 새로운 세이프가드(safeguard) 시스템을 도입: 해당 토픽에 닿는 요청은 Opus 4.8로 자동 라우팅되며(요금도 Opus 가격 적용), 이를 통해 최고 성능 모델의 일반 제공을 실현. Mythos 5(동일 모델에서 세이프가드를 제거한 것)는 계속해서 승인된 파트너 한정입니다.
"다음 모델"을 전제로 설계하기: 승리하는 자는 다음 지능 점프를 흡수할 수 있는 아키텍처를 가진 개발자 -
모델이 똑똑해질수록 복잡한 하네스(harness)보다
**파일 시스템이나 샌드박스(sandbox)와 같은 기본적인 프리미티브(primitive)**가 더 유용함 -
아직 작동하지 않는 프로토타입도 일부러 만들어 둘 것. "작동하지 않던 것이 작동하기 시작하는 순간"이 지수적(exponential)인 움직임을 알 수 있는 시그널 -
모델 업그레이드를 용이하게 하는 것(자동 평가·테스트 프로세스)이 비즈니스 기회가 됨
에이전트를 본업 운영하기 위한 3요소 "하네스(harness)·컨텍스트(context)·인프라(infrastructure)"를 패키지화한 것이 Claude Managed Agents.
하네스 (Harness): "뇌와 손의 분리"— 모델이 판단하고, 샌드박스가 실행. 아웃컴(outcome, 성과 기준)을 지정하면 달성할 때까지 반복 -
컨텍스트 (Context): 100만 토큰의 컨텍스트 윈도우(context window), 메모리, 에이전트 스스로의 스킬 읽기/쓰기, 그리고 과거 세션을 되돌아보며 자기 개선하는 "드리밍 (dreaming)" -
인프라 (Infrastructure): 샌드박스의 자동 스케일링과 에이전트 플릿(agent fleet) 생성
이날 발표된 신기능은 2가지:
스케줄 디플로이먼트 (Scheduled deployment): cron처럼 에이전트의 정기 실행을 설정 가능 -
환경 변수 Vault (Environment Variable Vault): 에이전트에게 시크릿(secret)의 실제 값을 보여주지 않고 인증된 API를 호출하게 하는 메커니즘 (컨테이너 내부는 플레이스홀더(placeholder)이며, 네트워크 요청 시 실제 값을 주입)
도입 사례로서 Notion(제품 내 에이전트 오케스트레이션), Asana(AI 팀메이트)를 소개. 데모에서는 F1 팀을 주제로, 공기 역학·타이어 온도·파워 유닛·드라이버 안전의 4가지 리서치 에이전트가 차량 개선을 분석하는 대시보드를 선보였습니다.
평균적인 개발자가 주당 20시간 Claude Code를 사용하게 되었으며, Anthropic 사내에서는 엔지니어 1인당 코드 배포량이 8배로 증가했습니다. 사내 코드의 **80% 이상이 Claude에 의해 머지(Merge)**되고 있다고 합니다.
주요 업데이트:
- Agent View: 모든 세션을 목록화하여 「입력 대기/실행 중/완료」 상태를 조망. 1개 세션의 베이비시팅(babysitting)에서 「플릿(fleet) 전체의 조종」으로 -
- Dynamic Workflows (GA): 대규모 리팩터링(Refactoring)이나 마이그레이션(Migration) 등에서 Claude가 오케스트레이션(Orchestration) 스크립트를 작성하여 수십~수백 개의 서브 에이전트(Sub-agent)를 병렬 실행. 트리거 키워드는 「ultra code」로 변경. 데모에서는 웹사이트의 12개 언어 로컬라이제이션(Localization)을 단 하나의 프롬프트로 병렬 실행 -
- Auto Mode: 분류기(Classifier)가 도구 호출(Tool call)의 안전성을 판단하여, 안전하면 자동 허용하고 위험하면 차단하는 새로운 퍼미션(Permission) 모드 -
- Worktrees:
--worktree또는-w를 사용하여 git worktree를 이용한 병렬 세션의 충돌 방지를 간편하게 - - Automemory: 빌드 명령어나 디버깅 지식을 세션을 넘어 자동으로 축적 -
- Remote Control: 로컬 세션을 스마트폰이나 브라우저에서 이어받아 조작 -
- 풀스크린 TUI: 터미널의 깜빡임(Flickering)을 해소하는 새로운 렌더링.
/tui full screen으로 활성화 가능하며, 음성 입력(/voice)도 지원 - - Code Review / ultra review: 관점별 에이전트 팀이 PR(Pull Request)을 리뷰하고, 검증 패스(Verification pass)를 통해 지적 사항의 타당성을 확인 -
- Routines: cron, GitHub Webhook, API를 트리거로 Claude Code를 자동 실행 (Issue 트리아지(Triage) → Slack 다이제스트 등) -
- Claude Security: 코드베이스를 야간에 스캔하여 취약점(Vulnerability)을 플래그(Flag) 표시
사례: Spotify는 마이그레이션 계획을 평문으로 읽는 백그라운드 에이전트를 통해 수천 개의 리포지토리(Repository)를 마이그레이션했으며(월 1,000개 이상의 PR 머지, 마이그레이션 시간 90% 절감), Mercari는 엔지니어링 조직 전체에서 활용하여 아웃풋(Output)이 전년 대비 +90% 증가했습니다.
Canva의 AI 프로덕트 책임자 Danny Wu가 전하는 Canva AI 2.0 구축 교훈. 개인적으로 이 세션이 가장 실무적이었습니다.
-
원샷(One-shot) 품질이 전부가 아니다: 디자인은 주관적이며, 평균적인 Canva 디자인은 공개 전에 약 110회 편집됩니다. 「완성품을 내놓는 에이전트」보다는 「함께 만드는 협업자(Collaborator)」를 지향합니다. 레이턴시(Latency)는 품질 지표보다 만족도와 더 높은 상관관계를 보입니다. -
-
하네스(Harness)는 일회용이다: 「오늘의 똑똑한 하네스는 내일의 데드 코드(Dead code)다」. Canva는 3년 동안 하네스를 **3번 전체 재작성(Rewrite)**했습니다. 단, E2E의 eval(평가)은 일회용이 아니라 자산입니다. -
-
비용 관리:
- **토큰 버젯(Token budget)**을 설정하고 모델 스스로 배분하게 함 (Advisory 방식이므로 하드 리미트(Hard limit)는 시스템 측에서도 구현) - 모델 라우팅(Routing) 시 「프롬프트마다 모델을 교체」하면 캐시(Cache)가 무효화되어 역효과가 발생함 → 메인 에이전트(Sonnet) + 서브 에이전트(Opus/Haiku) 위임 방식으로 변경하여, 캐시 히트율(Cache hit rate) 80~90%를 유지하면서 비용을 절반으로 절감 - 사내 UI에 비용을 상시 표시하여 비용 의식이 있는 문화를 조성 -
-
사용자 피드백: 이미지 업스케일러(Upscaler)에 대한 수백 건의 부정적인 피드백을 그대로 eval에 추가하여, v2에서 개선 및 해결
-
SWE-bench Verified는 Sonnet 3.7의 62%에서 Opus 4.8의 88%로 12개월 만에 26포인트 향상되었으며, Mythos/Fable에서는 포화(Saturation) 상태에 도달했습니다. 지능 향상이 나타나고 있는 3가지 영역:
- Plan before acting: 실행 전에 사양(Specification)을 생각하도록 하여, 결과적으로 도구 호출과 코드 양이 줄어들어 더 빠르고 저렴해짐 -
- Error recovery: 동일한 실수를 반복하는 「둠 루프(Doom loop)」가 줄어들고, 피드백을 받아 접근 방식을 변경할 수 있음 -
- Long horizon: 약 100만 토큰까지 일관성을 유지. 컨텍스트(Context)의 세밀한 청크(Chunk) 관리가 불필요해짐
-
실전 조언:
eval(평가)을 만들고, 포화되면 업데이트할 것 / 스캐폴딩(Scaffolding)을 줄일 것 (과거 모델의 실패를 방지하기 위해 추가한 프롬프트가 새 모델에서는 오히려 해가 되는 사례: 구형 인용 포맷 지시를 새 모델이 너무 충실하게 따라버린 경우) / 모델에게 작업의 여지를 줄 것 (adaptive thinking, 에포트 다이얼(Effort Dial), 검증 도구를 통해 루프를 닫기)
종반 실전 세션. 데모를 곁들여 4가지 기술을 해설:
- 프롬프트 캐싱 (Prompt Caching): 이번 세션의 가장 중요한 포인트. 캐시 히트(Cache hit) 시 90% 할인, 속도 향상, 레이트 리밋(Rate limit) 미포함. 에이전트라면 히트율 80% 이상을 목표로 해야 함. 콘솔에 새로운 캐시 히트율 대시보드가 추가됨. Claude Code의 'Claude API 스킬'에 'improve my cache hit rate'라고 요청하는 것만으로도 개선 가능
- Tool Search Tool: 100개 이상의 도구 정의를 컨텍스트(Context)에 미리 로드하지 않고, 필요할 때 검색하여 로드. Lovable은 이것만으로 토큰 사용량을 10% 절감했을 뿐만 아니라 판단 품질도 향상
- 프로그래매틱 도구 호출 (Programmatic Tool Calling): 대량의 데이터를 반환하는 도구에 대해, 모델이 직접 코드를 작성하여 필요한 몇 %만을 추출해 컨텍스트에 삽입
- 컴팩션 (Compaction): 임계치(예: 400K)에 도달하면 실행을 일시 중지하고, 별도의 모델이 트랜스크립트(Transcript)를 요약하여 컨텍스트를 정리한 후 재개
추가로 "어드바이저 전략 (Advisor Strategy)": Haiku/Sonnet 등 저렴한 모델에 도구 호출을 맡기고, 깊은 추론이 필요한 상황에서만 Opus/Fable에 상담하게 함. "주니어 엔지니어에게 시니어 엔지니어에게 질문할 권한을 주는 것"과 같은 이미지로, 비용을 억제하면서 판단 품질을 유지.
그 외 2026년 플랫폼 신기능으로서, API 키가 필요 없는 Workload Identity Federation (WIF) 및 Fable 5의 세이프티 분류기(Safety classifier)에 의해 차단될 경우 다른 모델로 자동 전환되는 모델 폴백(Model Fallback) 기능도 소개되었습니다.
오후에는 일본어로 진행된 세션도 다수 있었습니다 (본 기사의 베이스인 영어 자동 자막으로는 정확히 추적할 수 없으므로, 제목 소개로 갈음합니다):
-
라쿠텐 (Rakuten): AI화 전략 'AIzation'과 Managed Agents 활용. 파이어사이드 챗(Fireside chat)에서는 메모리와 드리밍(Dreaming)을 통해 초기에 안고 있던 문제의 90%를 에이전트 스스로 해결하여, 토큰 효율·레이턴시(Latency)·비용이 대폭 개선되었다고 언급함. 정기 리포팅 업무를 스케줄 디플로이먼트(Scheduled deployment)로 이행
-
미즈호 (Mizuho): 디지털 전략 및 AI 오리엔티드(AI-oriented) 아키텍처
-
NRI: 엔터프라이즈에서의 AI 활용 - Anthropic 일본 커뮤니티 리드에 의한 커뮤니티 소개
-
모델의 진화는 지수 함수적이며, 비즈니스의 적응은 선형적이다 — 그 격차를 메우는 것이 개발자의 기회
-
'현재의 모델'이 아니라 '다음 모델'을 위해 설계하라 — 하네스(Harness)는 얇고 일회용으로, eval은 두껍고 자산으로
-
에이전트의 주전장은 지능에서 인프라로 — 컨텍스트 엔지니어링, 캐싱, 비용 관리, 보안 실행 환경이 실전 운영의 결정적 요소
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기