
Claude Fable 5에 대한 초기 인상
요약
Anthropic의 신규 모델 Claude Fable 5와 Claude Mythos 5에 대한 초기 성능 리뷰입니다. Fable 5는 강력한 성능을 제공하지만 엄격한 가드레일이 적용되었으며, Mythos 5는 안전 분류기 없이 동일한 역량을 제공합니다.
핵심 포인트
- Claude Fable 5는 높은 비용과 느린 속도에도 불구하고 강력한 성능을 보임
- 가드레일 작동 시 자동 모델 전환(fallback) 기능이 API에 추가됨
- 100만 토큰 컨텍스트 윈도우와 128,000 토큰 출력 지원
- Opus 4.8 대비 높은 가격 책정 및 방대한 지식 보유
Claude Fable 5에 대한 초기 인상
2026년 6월 9일
저는 오늘 출시된 Claude Fable 5의 사전 액세스 권한을 가지고 있지는 않았지만, 지난 약 5.5시간 동안 이를 테스트하며 성능을 확인해 보았습니다. 저의 초기 인상은 이것이 일종의 괴물(beast) 같다는 것입니다. 속도는 느리고 비용은 비싸지만, 지금까지 제가 던져준 모든 것들을 아주 즐겁게 처리해 내고 있습니다. 현재의 프런티어 모델(frontier models)에서 자주 발생하는 경우와 마찬가지로, 과제는 이 모델이 할 수 없는 일을 찾아내는 것입니다.
먼저, 주요 특징들을 살펴보겠습니다.
Anthropic은 Claude Fable 5가 Claude Mythos 5와 동일한 성능을 제공하되, 유해한 용도로 사용되는 것을 방지하기 위해 훨씬 더 엄격한 가드레일(guardrails)이 적용되었다고 주장합니다. 이러한 가드레일이 상당히 자주 작동하기 때문에, Claude API에는 가드레일에 걸렸을 때 이를 알려주는 새로운 메커니즘이 추가되었으며, 무언가가 거부될 경우 자동으로 다른 모델로 전환(fallback)하도록 요청할 수 있는 새로운 메커니즘도 Claude API에 포함되었습니다.
Anthropic의 말에 따르면 Claude Mythos 5도 오늘 출시되며, 이는 "안전 분류기(safety classifiers) 없이 Claude Fable 5의 역량을 공유한다"고 합니다.
이 모델들은 100만 토큰의 컨텍스트 윈도우(context window), 128,000개의 최대 출력 토큰(maximum output tokens), 그리고 2026년 1월의 지식 컷오프(knowledge cut-off) 날짜를 가집니다.
가격은 Claude Opus 4.5/4.6/4.7/4.8의 두 배로 책정되었습니다: 입력 토큰 100만 개당 $10, 출력 토큰 100만 개당 $50입니다. 긴 컨텍스트 사용에 따른 추가 비용 인상은 없습니다.
그 외에 업그레이드 가이드는 Opus 4.8의 유사한 가이드보다 실질적으로 훨씬 더 간략합니다.
거대한 모델의 향기
Fable을 설명하는 가장 좋은 방법은 그것이 거대하게 느껴진다는 것입니다. 단순히 속도와 비용 측면뿐만 아니라, 그것이 알고 있는 지식의 양 측면에서도 그렇습니다.
다음은 Fable의 지식을 Opus 4.8과 비교하기 위해 사용한 예시 프롬프트(오타 포함)입니다:
List all of Simon Willion's open source projects, most recent first, each with a rough date of when they were first released
Opus 4.8의 답변은 다음과 같이 시작되었습니다:
저는 Simon Willison의 모든 오픈 소스 (open source) 프로젝트에 대해 신뢰할 수 있고, 포괄적이며, 날짜가 검증된 목록을 가지고 있지 않습니다. 부정확한 날짜나 조작된 항목을 제공할 위험을 감수하기보다는 그 사실을 솔직하게 말씀드리고 싶습니다.
제가 상당한 확신을 가지고 말씀드릴 수 있는 내용은 다음과 같습니다:
Simon Willison의 잘 알려진 프로젝트들:
LLM(~2023) – 대규모 언어 모델 (large language models)과 상호작용하기 위한 커맨드 라인 도구 (command-line tool) 및 Python 라이브러리 (library).
Datasette(~2017) – 데이터를 탐색하고 게시하기 위한 도구로, 아마도 그의 가장 눈에 띄는 최근 프로젝트일 것입니다.
sqlite-utils(~2018-2019) – SQLite 데이터베이스를 조작하기 위한 Python 라이브러리 및 CLI 도구로, 종종 Datasette과 함께 사용됩니다.
Django(2005) – 그는 Adrian Holovaty와 함께 Django 웹 프레임워크 (web framework)의 공동 제작자 중 한 명이며, 이는 원래 Lawrence Journal-World 신문사에서 개발되었습니다. 그는 또한 다음과 같은 방대한 생태계를 유지 관리하고 있습니다:
Datasette 플러그인 (plugins) 및 많은 작은 유틸리티들 (종종 shot-scraper와 같은 이름이나, 데이터 임포트 (importing)를 위한 다양한 *-to-sqlite 도구 등).
나쁘지 않습니다. 다음은 검색 기능에 접근할 수 없는 상태에서 실행된 Fable 5의 동일한 프롬프트에 대한 응답 시작 부분입니다:
당신이 말하는 것은 아마도 다작하는 오픈 소스 개발자이자 Django의 공동 제작자이며 Datasette의 제작자인 Simon Willison을 의미하는 것 같습니다. 먼저 중요한 주의 사항을 말씀드리자면, 진정으로 완전한 목록을 만드는 것은 불가능합니다. Simon Willison은 다작하기로 유명합니다. 그는 수백 개의 저장소 (repositories)를 게시했으며 (Datasette 하나에만 100개 이상의 플러그인이 있고, 그중 상당수는 그가 작성했습니다), 제 지식에는 컷오프 날짜 (cutoff date)가 있으므로 그의 가장 최근 작업은 누락될 것입니다. 아래는 그의 주목할 만한 프로젝트들을 대략적인 초기 출시 날짜와 함께 최신순으로 나열한 것입니다:
주목할 만한 프로젝트 (대략적인 날짜)
files-to-prompt (2024년 4월) – LLM (Large Language Models)을 위해 파일들을 하나의 프롬프트로 연결(concatenate)함
datasette-extract (2024년) – LLM을 사용하여 구조화된 데이터를 추출하는 플러그인
llm (2023년 5월–6월) – 대규모 언어 모델 (Large Language Models)과 상호작용하기 위한 CLI (Command Line Interface) 도구 및 Python 라이브러리, 그리고 방대한 플러그인 생태계 (llm-gpt4all, llm-mistral, llm-claude 등, 2023년 이후)
symbex (2023년 6월) – 심볼(symbols)을 찾기 위해 Python 코드를 검색함
sttokandstrip-tags (2023년 5월) – LLM 파이프라인을 위한 토큰 카운팅 (token counting) 및 HTML 정리용 CLI 도구
datasette-lite (2022년 5월) – WebAssembly/Pyodide를 통해 브라우저에서 완전히 실행되는 Datasette
shot-scraper (2022년 3월) – Playwright를 통한 자동 웹사이트 스크린샷 캡처
s3-credentials (2021년 11월) – 범위가 지정된 AWS S3 자격 증명(credentials) 생성을 위한 CLI
django-sql-dashboard (2021년) – Django를 위한 SQL 보고 대시보드
Dogsheep suite (2019년) – 개인용 분석 도구: twitter-to-sqlite, github-to-sqlite, healthkit-to-sqlite, dogsheep-beta 등
sqlite-utils (2018년) – SQLite 데이터베이스 조작을 위한 CLI 및 Python 라이브러리
Datasette (2017년 11월) – 그의 대표 프로젝트; 데이터를 탐색하고 게시하기 위한 도구
csvs-to-sqlite (2017년) – CSV 파일을 SQLite로 변환
다양한 초기 도구들 (~2007–2010년) – soupselect, json-head, geocoders 및 기타 도구들
Django (2003–2005년 개발, 2005년 7월 오픈 소스 공개) – Lawrence Journal-World에서 Adrian Holovaty와 공동 제작
(참고 삼아 GPT-5.5도 가져와 봤습니다. Fable보다 훨씬 더 많은 프로젝트를 나열하더군요!)
과거에 저는 모델이 얼마나 많은 것을 아느냐는 중요하지 않다고 언급한 바 있습니다. 저는 모델이 텍스트와 코드를 유용한 방식으로 조작할 수 있고, 정보를 가중치 (weights)에 구워 넣는 것이 아니라 검색 도구를 통해 필요한 정보를 능동적으로 찾아낼 수 있기를 바랍니다.
하지만 이러한 지식은 모델 크기의 상당히 좋은 대리 지표 (proxy)가 됩니다. 더 많은 파라미터 (parameters)를 사용하면 세상에 대한 훨씬 더 많은 세부 정보를 집어넣을 수 있기 때문입니다.
더 많은 것을 아는 것이 우리가 제시하는 작업에 모델이 더 뛰어난 성능을 발휘한다는 의미일까요? 현대적인 라이브러리(libraries)와 패턴(patterns)에 대해 더 깊은 지식을 가진 코딩 모델이 코딩 작업을 훨씬 더 효과적으로 처리할 수 있다는 점은 분명히 상상할 수 있습니다.
Fable이 정말 Opus보다 더 클까요? Anthropic은 모델 크기에 대해 아무것도 밝히지 않았기에 우리가 가진 것은 추측뿐이지만, 속도, 가격, 그리고 제가 직접 지식을 테스트해 본 결과는 이 모델이 대규모 모델(large model)이라는 생각을 들게 합니다. 어쩌면 현재 어떤 벤더(vendor)로부터 나온 모델 중 가장 클지도 모릅니다.
Claude.ai에서 Fable 사용하기
Anthropic은 Claude.ai 채팅 인터페이스, 웹용 Claude Code, Claude Code CLI, 그리고 Claude Cowork를 포함한 모든 서비스에서 Fable 5를 사용할 수 있도록 했습니다. 이 모델은 구독 플랜(저는 현재 월 100달러인 Max 플랜을 사용 중입니다)에서 "6월 22일까지" 제공되며, 그 이후에는 추가 요금이 부과될 예정입니다.
Claude.ai는 종종 과소평가되곤 합니다. 2025년 9월부터 모든 채팅은 추가 패키지를 설치하고 GitHub에서 직접 리포지토리(repositories)를 클론(clone)하는 기능을 포함하여, 코드를 실행할 수 있는 전체 컨테이너 환경(container environment)에 접근할 수 있었습니다.
지난주에 저는 신뢰할 수 없는 Python 코드를 위한 샌드박스(sandbox) 역할을 하도록 WebAssembly에서 MicroPython의 커스텀 빌드를 실행하기 위해 wasmtime을 사용하는 Python 라이브러리인 micropython-wasm을 출시했습니다.
저는 Fable이 이를 대신하여 전체 Python을 실행하는 방식으로 업그레이드할 수 있는지 확인해 보기로 했습니다. 저는 다음과 같은 프롬프트(prompt)로 시작했습니다:
GitHub에서 simonw/micropython-wasm을 클론하고, 이것이 MicroPython 대신 전체 Python을 어떻게 사용할 수 있는지 조사해줘
Fable은 이를 위해 Brett Cannon의 cpython-wasi-build 빌드를 사용할 수 있다는 점을 식별했지만, 환경 제한으로 인해 직접 다운로드할 수는 없었습니다.
그래서 저는 해당 페이지에서 두 개의 zip 파일을 가져와 Claude에 업로드했습니다:
여기 Brett Cannon 빌드 파일들이 있어
(python-3.zip, _build-python-3.zip을 첨부 파일로)
그게 전부였습니다. 모델은 몇 분 동안 작업을 수행하더니 전체 시스템을 작동시켰습니다.
응답의 일부에는 다음과 같은 내용이 포함되었습니다:
파일 시스템 표면(filesystem surface)을 줄이기 위해 더 깔끔한 단일 zip-stdlib 접근 방식을 시도했지만, CPython의 getpath
더 정교한 접두사(prefix) 처리가 없다면 zip 파일 내부에서 _PYTHONHOME이 encodings를 찾는 부트스트랩(bootstrap) 과정이 실패합니다. 디렉토리-사전-오픈(directory-preopen) 방식은 안정적으로 작동하므로 PoC(Proof of Concept)에서는 그 방식을 사용합니다. zip 경로 문제는 해결 가능하지만 /frozen-getpath가 작동해야 합니다.
그래서 저는 이렇게 말했습니다:
단일 zip-stdlib 문제에 대해 조금 더 시도해 보세요
그 후 잠시 뒤에:
Python 래퍼(wrappers), WASM 파일, 그리고 표준 라이브러리(stdlib)를 모두 포함하는 wheel 파일을 원합니다. 그래야 uv run --with path-to-whl python -c "demo code"를 실행할 수 있으니까요
... 그랬더니 13.9MB 크기의 cpython_wasm-0.1.0-py3-none-any.whl 파일이 생성되었습니다. 해당 wheel URL과 uv를 사용하여 다음과 같이 샌드박스(sandbox)에서 Python 코드를 실행해 볼 수 있습니다:
uv run --with https://static.simonwillison.net/static/cors-allow/2026/cpython_wasm-0.1.0-py3-none-any.whl \
cpython-wasm -c 'print(45 ** 56)'
전체 채팅 기록은 다음과 같습니다.
이것은 매우 강력한 시작이었습니다.
Claude Code를 사용하여 Datasette Agent 및 LLM에 기능 추가하기
오늘이 Fable의 날이라는 것을 깨닫기 전, 저의 오늘 목표(stretch goal)는 Datasette Agent에 새로운 기능을 추가하는 것이었습니다. 해당 에이전트 소프트웨어 내의 도구 호출(tool calls)이 실행 중간에 일시 중지하고 사용자로부터 직접 승인을 요청할 수 있는 능력을 갖추도록 하고 싶었습니다.
이는 새로운 모델에게 던져주기에 적절히 묵직한 작업처럼 느껴졌습니다.
하루 동안 Fable는 그 문제를 해결했을 뿐만 아니라, 도구 호출에서 이러한 고급 일시 중지-재개(pause-resume) 메커니즘을 지원하는 데 도움이 될 수 있는 제 기반 LLM 라이브러리의 이슈 6개를 식별하고 배포(ship)하기까지 했습니다.
처음에는 다소 까다로운 해킹(hacks)을 사용하여 모든 것을 작동시켰지만, LLM 자체에 대한 변경도 범위(in-scope)에 포함된다고 말하자마자 Fable는 해킹을 풀어내어 대신 LLM의 지원되는 기능으로 바꾸는 작업에 착수했습니다.
저의 목표는 거의 전적으로 Fable가 작성한 LLM 0.32a3으로 변했습니다. 릴리스 노트는 다음과 같습니다:
Datasette Agent의 human-in-the-loop ask_user() 기능의 필요성에 따라, 도구 호출이 작동하는 방식에 다음과 같은 개선 사항을 적용했습니다:
- 도구 구현체(Tool implementations)는 현재 호출에 대한
llm.ToolCall객체를 전달받기 위해llm_tool_call이라는 이름의 파라미터를 선언할 수 있습니다. 이를 통해 현재의llm_tool_call.tool_call_id에 접근할 수 있습니다. 도구 내부에서 도구 호출에 접근하기(Accessing the tool call from inside a tool) #1480 - 이제 모든 도구 호출은 고유한
tool_call_id를 보장받습니다. ID를 제공하지 않는 제공자(providers)에게는tc_접두사가 붙은 합성된 ULID가 할당됩니다. #1481 - 도구는
llm.PauseChain예외를 발생시켜 도구 체인(tool chain)을 깔끔하게 일시 중지할 수 있으며, 이는 인간의 승인을 기다리는 것과 같은 작업에 유용합니다. 이 예외는.tool_call및.tool_results(완료된 형제 결과들)가 첨부된 상태로 호출자에게 전파되며, 플레이스홀더(placeholder) 결과로 모델 호출을 수행하지 않습니다. 도구 내부에서 체인 일시 중지하기(Pausing a chain from inside a tool) #1482 - 동시 도구 실행(concurrent tool execution)의 실패 의미론(Failure semantics): 비동기 형제 도구 호출(async sibling tool calls)은 일시 중지 또는 훅(hook) 예외가 전파되기 전에 항상 완료될 때까지 실행됩니다. #1482
- 이제 체인은 해결되지 않은 도구 호출로 끝나는
messages=히스토리로부터 재개할 수 있습니다. 호출된 도구들은 첫 번째 모델 호출 전에 일반적인before_call/after_call메커니즘을 통해 실행되며, 이미 결과가 있는 호출은 건너뜁니다.execute_tool_calls()메서드는 또한 응답에 의해 요청된 호출 대신 명시적인ToolCall객체 리스트를 실행하기 위한 새로운 선택적 인자인tool_calls_list=를 허용합니다. 대기 중인 도구 호출로 체인 재개하기(Resuming a chain with pending tool calls) #1482 tools=에 존재하지 않는 도구에 대한 비동기 도구 실행기(async tool executor)의 호출을 조용히 누락하던 버그를 수정했습니다. 이제 동기 실행기(sync executor)와 일치하도록Error: tool "..." does not exist결과를 반환합니다. #1483
Fable이 이를 위해 준비한 API 설계, 테스트, 코드 및 문서의 품질에 정말 깊은 인상을 받았습니다. 오늘 몇 시간을 투자했지만, 마치 며칠 분량의 작업처럼 느껴집니다.
내가 소비한 양
최근 저는 다양한 코딩 에이전트(coding agents) 전반에 걸쳐 로컬 LLM 사용량을 추적하는 데 도움을 얻고자 AgentsView를 사용하기 시작했습니다. 오늘 저는 해당 도구에 커스텀 Fable 가격 책정을 추가하는 것에 관한 TIL(Today I Learned)을 게시했는데, 아주 가까운 미래에는 이것이 필요하지 않을 것으로 예상합니다.
가격을 설정한 후, 저는 사용량을 탐색하기 위해 로컬호스트(localhost) 웹 서버를 시작하는 다음 명령어를 실행했습니다:
uvx agentsview serve
다음은 오늘 다양한 프로젝트에 걸친 저의 Fable 사용량 내역을 보여주는 트리맵(treemap)입니다:
AI 자동 생성 콘텐츠
본 콘텐츠는 RSS: Simon Willison's Weblog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기