Claude Fable 5는 며칠 동안 실행될 수 있습니다. 1인 개발자가 실제로 이것을 필요로 하는 시점은 언제일까요?

Claude Fable 5가 오늘 아침 출시되었습니다. 헤드라인은 이 모델이 스스로 며칠 동안 실행되며, 이전 모델들은 할 수 없었던 길고 비동기적인 (asynchronous) 작업들을 지속할 수 있다는 점입니다. 발표 내용을 읽으며 제 첫 번째 생각은 "인상적이다"가 아니라, "나와 같은 1인 플러그인 개발자가 실제로 이것을 언제 사용하게 될까, 그리고 사용한다면 내 청구서에는 어떤 일이 벌어질까?"였습니다.

이 포스트는 바로 그 질문에 대한 것입니다. 이것은 기능 투어도 아니고, 직접 사용해 본 리뷰도 아닙니다. 모델이 오늘 출시되었고 저는 아직 며칠 동안 실행해 보지 않았습니다. 이것은 발표된 사실들과, Fable이 Opus 옆에서 어디에 위치하는지에 대한 현직 개발자의 견해입니다.

현재 상황

저는 출시일(2026년 6월 9-10일)에 Anthropic의 발표와 초기 보도 내용을 바탕으로 이 글을 쓰고 있습니다. 아래의 역량들은 제가 직접 제 기기에서 검증하지 않았기 때문에 "Anthropic의 말에 따르면" 또는 "벤치마크 결과에 따르면"이라고 명시합니다. 숫자와 사양은 변동될 수 있으므로, 현재 상태는 공식 가격 및 모델 페이지를 확인하시기 바랍니다. 출처는 끝에 있습니다.

Fable 5란 무엇인가

Anthropic에 따르면, Claude Fable 5는 최초로 공개 가능한 Mythos-class 모델이자 회사의 5세대 모델입니다. 라인업은 이제 Haiku, Sonnet, Opus, 그리고 Mythos의 네 가지 클래스로 구성되며, Mythos는 Opus 위에 위치합니다.

이 이름에는 배경 이야기가 있습니다. Mythos는 4월에 등장했지만, Project Glasswing이라는 프로그램 아래 핵심 인프라를 다루는 조직으로 제한된 사이버 보안 (cybersecurity) 역량 때문에 일반 출시에서는 제외되었습니다. Fable 5는 광범위하게 출시될 수 있을 만큼 안전하게 만들어진 버전입니다. 제한이 없는 Mythos 5는 여전히 제한된 상태로 유지됩니다. 동일한 기본 모델이지만, 안전 장치 (safeguards)의 활성화 여부에 따라 두 가지로 나뉩니다. 1인 개발자로서 제가 실제로 접근할 수 있는 것은 공개 버전입니다.

무엇이 변한다고 주장되는가

이번 발표의 강조점은 장기 실행되는 비동기적 (asynchronous) 작업, 즉 이전 모델들은 지속할 수 없었던 며칠 단위의 복잡한 작업입니다. 이를 Claude Code와 같은 에이전트 하네스 (agent harness)에 넣으면, 여러 단계에 걸쳐 계획을 세우고, 하위 에이전트 (subagents)에게 업무를 위임하며, 목표 대비 진행 상황을 확인하고, 진행 과정에서 스스로의 작업물을 수정하도록 설계되었습니다. 벤치마크 (benchmarks) 결과에 따르면 거의 모든 분야에서 최첨단 (state-of-the-art) 수준이며, 작업이 길고 복잡해질수록 그 격차는 더 벌어지는 것으로 설명됩니다.

규모를 짐작해 보자면, 한 연구자가 19페이지 분량의 사양서 (spec)를 전달했을 때 모델이 약 9시간 반 동안 작업하여, 이전에는 아무도 만들 가치를 느끼지 못했던 도구를 구축했다는 사례가 언급되었습니다. 단 한 번의 브리프 (brief)로부터 반나절 이상을 소요하는 것이 이 클래스가 구축된 시간 규모인 것으로 보입니다.

비전 (Vision) 또한 또 다른 주장입니다. 파일과 PDF에 포함된 다이어그램과 표를 읽고, 비전을 사용하여 자신의 코딩 결과물이 목표에 부합하는지 확인한다는 것입니다. 마지막 부분은 제가 이전에 작성했던 내용과 맞닿아 있는데, AI가 작성한 코드는 외부 입력이며 AI가 AI의 출력물을 처리하는 것은 이중 신뢰 (double-trust) 문제라는 점입니다. 모델이 자신의 출력물을 스스로 확인하는 것은 그 이중성을 모델 내부로 접어 넣는 것입니다. 자기 확인 (Self-checking) 기능은 제대로 작동한다면 안심이 되겠지만, 확인하는 주체와 확인 대상이 동일한 사각지대를 공유할 여지도 남깁니다. 저는 이 부분에 대해 희망과 주의를 동시에 유지하고 있습니다.

Fable인가, Opus인가

여기서부터 저에게 중요한 부분입니다. 1인 개발자의 예산으로 Fable과 Opus를 어떻게 나누어 사용해야 할까요?

Anthropic은 그 구분 자체를 다음과 같이 명시합니다. Fable은 긴 시간에 걸쳐 작업을 분해하고, 조사하고, 구축하고, 검증하는 야심 차고 비동기적인 작업을 위한 것이며, Opus는 더 빠르고 동기적인 (synchronous) 협업을 위한 것입니다. 무언가를 맡겨두고 자리를 떠나도 되는 것이 Fable이라면, 옆에서 함께 작업하는 것이 Opus입니다.

이제 비용 문제입니다. Fable 5는 출시 시점에 입력 토큰 100만 개당 10달러, 출력 토큰 100만 개당 50달러로 책정되었으며, 프롬프트 캐싱 (Prompt Caching)을 통해 입력 토큰에 대해 90% 할인을 제공합니다. 며칠 동안 실행되는 모델은 그 시간 내내 토큰을 소모하며, 출력 속도는 입력의 5배에 달합니다. 긴 자율 실행 (Autonomous runs)은 생성 (Generation)에 크게 의존합니다. 모델이 계획, 코드, 테스트, 수정 사항을 작성하면 이 모든 것이 출력 토큰으로 처리되며, 이는 캐싱 할인 대상에서 제외됩니다. "며칠 동안 실행된다"는 말은 곧 "며칠 동안 요금이 청구된다"는 의미로도 읽힙니다.

따라서 제 견해는 이렇습니다. 기능을 구현하거나, 버그를 수정하거나, 리뷰하거나, 리팩토링 (Refactoring)하는 저의 대부분의 플러그인 작업은 모델 옆에 앉아서 수행하는 작업입니다. 이는 동기적 (Synchronous)인 작업이며, Opus급 모델로도 충분하고 지갑 사정에도 더 유리합니다. 저는 단 한 사람이 한 번의 앉은 자리에서 끝낼 수 없는 일, 즉 대규모 마이그레이션 (Migration)이나 주말 내내 실행시켜 두고 싶은 '명세서 기반 전체 구축' 작업에만 Fable을 사용할 것입니다. Fable을 선택하는 범위는 작고 구체적입니다. 명확하게 비동기적 (Asynchronous)이어야 하며, 진정으로 실행을 맡겨둘 가치가 있는 작업이어야 합니다.

다르게 표현하자면, "가장 강력하니까 항상 사용하라"가 아니라, "계속 실행시켜 두고 싶은 큰 작업에 사용하라"는 것입니다. 가장 강력한 모델을 풀타임으로 점유하는 것은 1인 개발자의 예산으로는 버틸 수 없습니다. 만약 어떤 작업이 한 사람에게 며칠이 걸리는 일이라면, 자율 실행에 비용을 지불하는 것은 저렴합니다. 하지만 옆에서 직접 처리할 수 있는 작업에 자율 모델을 투입하는 것은 가장 비싼 수도꼭지를 끝까지 틀어놓는 것과 같습니다.

안전 설계를 위한 폴백 (Fallback)

흥미롭다고 느낀 설계 디테일이 하나 있습니다. 사이버 보안, 생물학, 화학과 같은 고위험 영역에서 Fable 5는 자신의 응답을 차단하고 대신 Claude Opus 4.8이 답변하도록 설계되었습니다. 이토록 강력한 모델을 광범위하게 출시하기 위해, 위험한 영역은 능력이 낮은 모델로 라우팅 (Routing)하는 것입니다. Anthropic은 또한 외부 버그 바운티 (Bug bounty) 프로그램이 1,000시간 이상 진행되었음에도 불구하고 범용적인 탈옥 (Jailbreak)을 발견한 사람이 없었다고 밝혔습니다.

기능을 완전히 개방하는 대신, 도메인(Domain)에 따라 다른 모델로 전환하는 방식은 제가 에이전트(Agent)에게 어느 정도의 실행 권한을 허용할 것인지에 대해 그어온 선과 그 정신이 맞닿아 있습니다. 도구가 강력해질수록, 설계의 핵심은 그 도구가 '무엇을 하지 못하게 할 것인가'에 집중됩니다.

제가 접근하는 방식

솔직한 입장을 말씀드리자면, 매일 사용할 모델은 아닙니다. 일상적인 업무는 동기적(Synchronous)이며 예산 또한 고려해야 합니다. 하지만 제가 신경 쓰지 않고 내버려 둘 수 있는 주말 규모의 작업(Weekend-sized job)을 위해 마음 한구석에 남겨둘 만한 실제적인 옵션입니다.

이 그림을 신뢰하기 전에 테스트하고 싶은 것들은 다음과 같습니다: '며칠 동안 실행된다'는 점이 실제 플러그인 작업에서 실제로 얼마나 도움이 되는지, 자율 실행(Autonomous run) 시 비용이 얼마나 많이 발생하는지, 그리고 스크린샷을 보고 WordPress 관리자 화면을 수정하는 것과 같은 작업에서 시각적 검토(Vision-checking-its-own-output)가 유용한 역할을 하는지 여부입니다. 그 부분은 실제로 실행해 본 후에 작성하겠습니다.

미래의 나에게 남기는 메모

새롭고 더 강력한 모델이 등장하면, 그것을 데일리 드라이버(Daily driver)로 삼고 싶은 유혹이 생깁니다. 하지만 강력함과 작업에 적합함(Fit-for-the-job)은 같은 것이 아닙니다. Fable은 당신이 맡겨두고 떠날 수 있는 큰 작업을 위한 도구입니다. 동기적인 일상 업무는 Opus급 파트너로도 충분하며, 비용 면에서도 더 경제적입니다. 모델의 무게를 작업의 무게에 맞추십시오. 새로운 것이 반짝거릴 때 제가 기억하고 싶은 선은 바로 이것입니다.

실제로 실행해 본 후, 이 글의 내용이 유효했는지 작성하겠습니다. 출시 당일 기준으로, 제가 내린 결론은 이것입니다.

참고 문헌

출시 당일 발표 및 보도 자료. 현재 수치는 공식 페이지에서 확인하십시오.

원래 일본어로 Zenn에 작성됨. 저는 WordPress 플러그인을 만듭니다.