본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 20. 15:17

모든 새로운 Claude 모델에서 Claude Code를 실행해 보았습니다. 실제로 무엇이 성과를 내는가.

요약

Anthropic의 2026년 Claude 모델 라인업을 Claude Code 환경에서 테스트한 결과입니다. 각 모델의 성능과 비용에 따른 최적의 라우팅 전략을 통해 개발 생산성을 극대화하는 방법을 제시합니다.

핵심 포인트

  • Claude 모델은 이제 단일 모델이 아닌 성능/비용별 사다리 구조의 함대 형태임
  • Sonnet 4.6은 1M 컨텍스트를 제공하는 가장 범용적인 기본 코딩 모델임
  • Opus 4.8은 높은 신뢰도와 동적 워크플로를 지원하는 시니어급 모델임
  • Fable 5와 Mythos 5는 장기적 추론과 복잡한 마이그레이션에 특화된 프론티어 모델임
  • 효율적인 개발을 위해 작업 성격에 맞는 모델 라우팅(Routing)이 핵심임

Fable, Mythos, Opus 4.8, Sonnet 4.6, Haiku — Anthropic의 2026년 라인업은 더 이상 "대화하는 단일 모델"이 아닙니다. 그것은 당신이 사이를 라우팅(routing)해야 하는 함대(fleet)입니다. 저는 한 달 동안 Claude Code 내부에서 실제 코드베이스 전체에 걸쳐 이 모든 모델을 오케스트레이션(orchestrating)했습니다. 언제 어떤 모델을 선택해야 하는지, 그리고 제 처리량(throughput)을 조용히 두 배로 늘려준 라우팅 플레이북(routing playbook)을 소개합니다.

내가 왜 다시 이 토끼굴로 들어갔는가 (Why I Went Down This Rabbit Hole (Again))

지난번에 Claude의 **기술 (Skills)**에 대해 글을 쓰면서 Claude Code를 그 기술들을 위한 최고의 호스트라고 불렀습니다. 그 이후로 제 일상적인 업무 방식을 바꾼 두 가지 사건이 있었습니다.

첫째, 모델들이 진정으로 기이할 정도로 좋아졌습니다. 몇 달 사이에 Anthropic은 Sonnet 4.6, Opus 4.8을 출시했고, 그 후 Opus를 상회하는 완전히 새로운 _계층 (tier)_인 Mythos 클래스를 Claude Fable 5라는 이름으로 대중에게 공개했습니다. 우리는 "AI가 괜찮은 diff를 제안한다" 수준에서, Stripe가 Fable 5를 통해 5,000만 줄 규모의 Ruby 코드베이스에 대한 전체 마이그레이션(migration)을 단 하루 만에 완료했다는 보고를 듣는 수준까지 왔습니다. 이는 사람이 직접 했다면 팀 단위로 두 달 이상 걸렸을 작업입니다.

둘째, Claude Code는 더 이상 단일 모델 도구가 아니게 되었습니다. 가격, 속도, 지능 수준이 각기 다른 모델 함대를 보유하게 되면서, 2026년의 가장 영향력 있는 기술은 프롬프팅 (prompting)이 아니라 **라우팅 (routing)**입니다. 어떤 작업을 어떤 모델에 할당할지 아는 것이, 오타 수정에 200달러어치의 토큰 (tokens)을 낭비하느냐 아니면 멀티 서비스 리팩토링 (multi-service refactor)을 한 번에 성공시키느냐의 차이를 만듭니다.

그래서 저는 당연한 일을 했습니다. 이 모든 모델을 Claude Code에 연결하고 한 달 동안 버그 수정, 마이그레이션 (migrations), 그린필드 기능 (greenfield features), 테스트 스위트 (test suites), 지루한 작업부터 무서운 작업까지 실제 업무에 적용해 보았습니다. 제가 배운 것은 다음과 같습니다.

요약 (TL;DR)

  • 라인업은 이제 사다리 구조입니다: Haiku → Sonnet 4.6 → Opus 4.8 → Fable 5 → Mythos 5. 각 단계(rung)는 비용을 성능과 맞바꾸며, 인내심을 장기적 자율성(long-horizon autonomy)과 맞바꿉니다.
  • Sonnet 4.6이 기본 모델입니다. 100만 토큰당 $3/$15의 비용으로 **1M-토큰 컨텍스트 윈도우 (context window)**를 제공하며, 최첨단(Frontier-ish) 코딩 성능을 보여줍니다. 대부분의 작업은 여기서 이루어져야 합니다.
  • Opus 4.8은 신뢰할 수 있는 시니어입니다. 더 나은 판단력을 갖추고 있으며, 자체 코드 버그를 놓칠 확률이 약 4배 더 낮습니다. 또한 한 세션 내에서 수백 개의 병렬 서브 에이전트(subagents)를 구동하는 **동적 워크플로 (dynamic workflows)**를 지원합니다.
  • Fable 5는 프론티어(frontier)입니다. Mythos급 모델을 일반적인 용도로 안전하게 만든 모델입니다. 장기적 코딩 (long-horizon coding), 비전 (vision), 그리고 추론 (reasoning) 분야에서 업계 최고 수준이며, 민감한 주제에 대해서는 Opus 4.8로 전환(fall back)됩니다.
  • Mythos 5는 잠긴 금고입니다. Fable과 동일한 기반 모델을 사용하지만, 안전장치가 해제되어 검증된 사이버 방어 및 생물학 파트너에게만 제한적으로 제공됩니다.
  • 진정한 돌파구는 Claude Code 내부의 모델 라우팅 (model routing)입니다 — 여기에 Routines, Agent View, 그리고 컴퓨터 사용 (computer use) 기능이 더해집니다.
  • 아래에는 6가지 실전 검증된 사용 사례가 있습니다 — 5,000만 줄 규모의 마이그레이션 (약 2개월 → 1일)부터 각각 1~2일을 절약해 주는 노트북→파이프라인 변환까지, 이를 뒷받침하는 결과와 함께 소개합니다.
  • ⚠️ 현실 점검: 2026년 6월 12일 기준, Fable 5 및 Mythos 5에 대한 공개 액세스는 미국 정부의 수출 통제 지침에 따라 _중단(suspended)_되었습니다. 성능은 실재하지만, 가용성은 유동적입니다. 이에 따라 계획을 세우십시오.

2026 Claude 모델 사다리

  • Fable과 Mythos는 동일한 기반 모델(underlying model)입니다. 유일한 차이점은 안전 장치(safeguards)입니다. Fable에는 민감한 사이버/바이오/화학 관련 질의를 Opus 4.8로 넘기는 분류기(classifiers)가 포함되어 배포되지만, Mythos는 이러한 가드레일(guardrails)이 제거되어 있으며 신뢰할 수 있는 파트너에게만 제한적으로 제공됩니다. 두 이름은 동일한 어근인 라틴어 fabula, 그리스어 mythos, 즉 "전해지는 것"에서 유래했습니다.
  • "Mythos-class"는 원시 능력(raw capability) 면에서 Opus보다 상위에 위치합니다. 이는 Anthropic이 일반 공개 전 분류기를 통해 제한을 두는 첫 번째 티어(tier)입니다.
  • 작업이 길어질수록 Fable의 우위가 커집니다. 짧은 작업에서는 Sonnet과 Fable 사이의 격차가 작습니다. 하지만 수 시간이 소요되고, 여러 파일을 다루며, "이전의 결정 사항을 유지하며 진행해야 하는" 작업에서는 그 격차가 극적으로 벌어집니다.

Claude Code 내부에서 작업을 라우팅하는 방법

한 달간의 경험 끝에 제가 정착한 사고 모델(mental model)은 다음과 같습니다. 이를 분류(triage) 흐름이라고 생각하십시오:

flowchart TD
    A[새 작업] --> B{장기적 관점인가<br/>및 위험도는 어느 정도인가?}
    B -->|빠른 수정, 접착 코드(glue),
    대량 텍스트| H[Haiku]
...

1. 항상 Sonnet 4.6에서 시작하십시오.
이것은 가장 중요한 단 하나의 습관입니다. Sonnet 4.6은 이제 대부분의 팀이 실제로 중요하게 생각하는 코딩 작업에서 Opus 수준에 근접한 벤치마크 성능을 보여주며, 1M 토큰의 컨텍스트 윈도우(context window)와 여러 인스턴스를 병렬로 실행해도 경제적으로 무시할 수 있는 수준의 가격대를 갖추고 있습니다. 제가 신뢰하는 여러 팀은 이미 트래픽의 대부분을 이곳으로 공개적으로 옮겼습니다. 여기서 시작하고, Sonnet이 눈에 띄게 어려움을 겪을 때만 모델 사다리를 올라가십시오.

2. 판단력이 중요해지면 Opus 4.8로 올라가십시오.
작업에 *안목(taste)*이 필요한 순간 — 서비스 간 리팩터링(cross-service refactor), API 재설계, "우리가 정말 이런 방식으로 해야 할까?"와 같은 고민 — Opus 4.8은 그 프리미엄 가치를 증명합니다. 눈에 띄는 개선점은 단순한 지능이 아니라 바로 **정직함(honesty)**입니다. Opus 4.8은 이전 모델보다 자신의 코드에 있는 결함을 인지하지 못하고 넘어갈 확률이 약 4배 더 낮습니다. 지뢰를 확신에 차서 배포하는 대신 불확실성을 표시합니다. 사람이 개입하지 않는 장시간 실행 작업(unattended, long-running work)의 경우, 이는 벤치마크 점수 한 점보다 더 가치 있는 일입니다.

3. 장기적 과제(long-horizon stuff)에는 Fable 5를 선택하세요.
작업이 진정으로 거대할 때 — 수십만 줄에 달하는 마이그레이션, 스크린샷으로부터 앱 소스 코드 재구축, 수백만 토큰에 걸친 추론 등 — 한계에 부딪혔을 때 제가 찾는 모델은 Fable 5입니다. 이 모델은 거대한 컨텍스트(context) 전반에 걸쳐 집중력을 유지하며, 파일 기반 메모리(file-based memory)를 사용하여 자신의 출력을 개선합니다. 또한 이전 모델들보다 **토큰 효율성(token-efficient)**이 더 높아, 토큰당 단가가 높은 점을 완화해 줍니다.

4. 지루한 연결 작업(glue)에는 Haiku로 전환하세요.
대량 이름 변경(bulk renames), 로그 파싱(log parsing), 커밋 메시지 생성, 단순 코드 생성(codegen) 등에는 Haiku를 사용하세요. JSON 형식을 재구성하는 데 Opus의 가격을 지불하지 마세요.

라우팅(Routing)의 가치를 증명하는 Claude Code 기능들

모델 함대(model fleet)는 호스트가 이를 오케스트레이션(orchestrate)할 수 있게 해줄 때만 이득이 됩니다. 다음 네 가지 기능이 저에게 큰 도움을 주었습니다:

1. 동적 워크플로우(Dynamic Workflows) — 병렬 처리의 해제

Opus 4.8과 함께 출시된 **동적 워크플로우(dynamic workflows)**를 통해 Claude는 작업을 계획한 다음, 단일 세션 내에서 **수십 개에서 수백 개의 병렬 서브 에이전트(parallel subagents)**로 확장할 수 있으며, 결과를 보고하기 전에 자신의 출력을 스스로 검증합니다. 이것이 바로

"Claude Code 인스턴스를 가능한 한 많이 바쁘게 유지"하려고 할 때 (Notion의 공동 창업자는 농담하는 것이 아닙니다. 그것이 말 그대로 현재의 워크플로우입니다), 당신에게는 조종석(cockpit)이 필요합니다. **에이전트 뷰 (Agent View)**는 다양한 환경에서 실행 중인 모든 세션을 한 곳에서 관리할 수 있는 공간을 제공합니다. 이는 병렬 에이전트 작업(parallel agent work)을 정상적으로(sane) 유지하게 해주는, 화려하지는 않지만 필수적인 기능입니다.

4. 컴퓨터 사용 (Computer Use) — 터미널 그 이상

Claude Code는 이제 작업을 엔드 투 엔드(end-to-end)로 완료하기 위해 당신의 앱을 열고, 브라우저를 구동하며, 개발 도구(dev tools)를 실행합니다. Fable 5의 최첨단 비전(vision) 기술(별도의 보조 도구 없이 순수 스크린샷만으로 Pokémon FireRed를 이겼습니다)과 결합되어, "실제로 당신의 기기를 조작할 수 있는 AI"라는 미래가 조용히 다가와 있습니다.

또한 이는 어디에서나 당신과 함께합니다: 터미널(terminal), VS Code / Cursor / JetBrains 확장 프로그램, 데스크톱 앱, 웹, 모바일, 그리고 Slack — 당신이 어디에서 작업하든 동일한 에이전트, 동일한 컨텍스트(context), 동일한 모델을 사용합니다.

노력(Effort)에 관한 참고 사항 (대부분의 사람들이 놓치는 다이얼)

최신 모델들은 노력 제어 (effort control) 기능을 노출하며, 이는 당신이 사용할 수 있는 가장 저렴한 성능 레버(performance lever)입니다. Opus 4.8은 기본적으로 _높음(high)_으로 설정되어 있지만, 어려운 문제나 긴 비동기(async) 실행을 위해 매우 높음(extra) (Claude Code에서는 xhigh) 또는 _최대(max)_로 높일 수 있습니다. 낮은 노력 설정에서는 더 빠르게 답변하고 속도 제한(rate limits)을 적게 소모하며, 높은 노력 설정에서는 더 많이 생각하고 스스로 검증(self-validates)합니다.

저의 규칙은 다음과 같습니다: 대화형(interactive) 주고받기에는 낮은/표준(low/standard) 노력을, 자리를 비울 예정인 작업에는 높은/매우 높은(high/extra) 노력을 설정하십시오. 추가적인 사고 과정은 당신이 화면을 지켜보고 있지 않을 때 그 가치를 정확히 증명합니다.

Opus 4.8에는 **패스트 모드 (fast mode)**도 있습니다. 토큰당 비용은 더 높지만 속도는 2.5배 빠릅니다. 단순히 비용뿐만 아니라 실제 시간(wall-clock time)을 들여 집중해야 하는 긴밀한 대화형 루프(interactive loops)에 적합합니다.

"다른 좋은 모델들과 결합하세요" — 네, 그렇게 하세요

라우팅(Routing)이 반드시 Claude의 경계 안에서만 이루어질 필요는 없습니다. 혼합된 플릿(mixed fleets)을 운영하며 얻은 몇 가지 솔직한 관찰 결과는 다음과 같습니다:

  • Claude가 고립되어 작동하는 것이 아닙니다. Anthropic 자체 벤치마크 테이블은 Fable 5와 Opus 4.8을 GPT-5.5Gemini 3.5와 직접 비교하고 있으며, 그 격차는 절대적인 것이 아니라 작업(task)에 따라 다릅니다. 장기 지평선 에이전트 코딩(long-horizon agentic coding)에서는 현재 Fable이 앞서고 있습니다. 단순한 작업을 위한 원시 지연 시간 대비 비용(raw latency-per-dollar) 측면에서는 마케팅에서 제시하는 것보다 분야 간의 격차가 더 적습니다.
  • 실용적인 조합으로 제가 정착시킨 방식은 다음과 같습니다: Claude (Sonnet/Opus)를 Claude Code 내부의 주 코딩 에이전트로 사용하고, MCP(Model Context Protocol)를 통해 연결된 두 번째 의견 모델을 대립적 검토(adversarial review)에 활용하는 것입니다. 다른 모델이 diff를 비평하게 함으로써 어떤 단일 모델의 자체 검토로는 놓치기 쉬운

결과: Stripe는 Fable 5가 **5,000만 줄 규모의 Ruby 코드베이스에 대해 단 하루 만에 코드베이스 전반의 마이그레이션 (codebase-wide migration)**을 수행했다고 보고했습니다. 이는 팀이 수작업으로 진행할 경우 두 달 이상 소요될 것으로 예상되는 작업량입니다. 저의 (훨씬 더 작은 규모의) 실행 결과에서도, 제가 3일로 예상했던 수천 개의 파일이 포함된 프레임워크 업데이트 (framework bump) 작업이 깨끗한 diff와 모든 사소하지 않은 결정 사항에 대한 요약과 함께 단 한 오후 만에 성공적으로 완료되었습니다.

시사점 (Takeaway): 장기적인 마이그레이션 (Long-horizon migrations)은 최첨단 (frontier tier) 모델이 제공하는 가장 높은 ROI (투자 대비 수익)를 가진 유스케이스 (use case)입니다. 마이그레이션이 더 길고 기계적일수록, 시간 절약 효과는 더욱 압도적입니다.

유스케이스 2: EDA 노트북 → 프로덕션 파이프라인

작업: 탐색적 데이터 분석 (EDA) 노트북(데이터 추출, 모델 학습, 기본 지표를 통한 평가)을 실제 스케줄링이 가능한 프로덕션 파이프라인 (production pipeline)으로 전환하는 것입니다.

설정: Sonnet 4.6을 드라이버 (driver)로 사용합니다. 이는 Opus가 필요하지 않은 일상적인 작업입니다. 노트북과 CLAUDE.md에 정의된 파이프라인 프레임워크의 컨벤션 (conventions)을 모델이 참조하도록 지정하십시오.

결과: Ramp의 스태프 엔지니어 (staff engineer)는 노트북에서 Metaflow 파이프라인으로 이어지는 바로 이 워크플로우를 통해 모델당 1~2일의 일상적인 업무를 절감했다고 보고했습니다. 이것은 단순한 데모가 아닙니다. 모든 ML 엔지니어의 주간 업무에서 조용히 제거된, 반복되는 비용입니다.

시사점 (Takeaway): 지루하지만 숙련도가 필요한 전환 작업 (노트북→파이프라인, 스크립트→서비스, 프로토타입→프로덕션)이야말로 Sonnet 4.6이 매일 그 가치를 증명하는 영역입니다.

유스케이스 3: 이슈(Issue) → PR, 엔드 투 엔드 (end to end)

작업: GitHub 이슈가 접수됩니다. 이를 읽고, 재현하고, 수정 사항을 작성하고, 테스트를 추가한 뒤, PR (Pull Request)을 생성합니다.

설정: Claude Code의 GitHub/GitLab 통합 기능을 사용합니다. 분류 (triage) 및 일반적인 케이스에는 Sonnet 4.6을 사용하고, 버그가 아키텍처 (architecture)에 영향을 미치거나 근본 원인이 명확하지 않은 경우에는 Opus 4.8로 에스컬레이션 (escalate)합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0