본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 10. 13:46

Claude Fable 5 리뷰: 10억 개의 토큰, 비엔지니어가 평가하다

요약

비엔지니어의 관점에서 Claude Fable 5를 10억 토큰 규모로 테스트한 실무 리뷰입니다. 벤치마크 점수를 넘어 실제 업무에서의 생산성, 글쓰기 품질, 문제 포착 능력 등 '안목 테스트'를 통해 모델의 압도적인 성능을 평가합니다.

핵심 포인트

  • Claude Opus를 상회하는 Anthropic의 새로운 최상위 티어 모델
  • 벤치마크를 넘어선 실질적인 업무 파트너로서의 성능 입증
  • 아이디어를 실제 출시 가능한 결과물로 만드는 구축 능력 탁월
  • 인간의 말투를 모사하는 자연스러운 글쓰기와 예측 가능한 상호작용

저는 UI 및 UX, 글쓰기, 전략, 보안, 엔지니어링, 그리고 지식 노동(knowledge work) 등 실제 프로젝트에서 Claude Fable 5를 테스트하며 10억 개의 토큰을 사용했습니다. 제가 실제로 결과물을 내야 하는 종류의 작업들이었습니다. 그리고 솔직하게 말씀드리겠습니다. 진심으로 제가 불공평할 정도의 이점을 가진 것처럼 느껴졌습니다. 그 이유는 다음과 같습니다.

첫째, 관점입니다. 저는 엔지니어가 아닙니다. 대부분의 모델 리뷰는 엔지니어링 벤치마크 (benchmarks)를 실행하는 엔지니어들에 의해 이루어집니다. 하지만 이 리뷰는 과거에 엔지니어 팀이 필요했던 업무를 Claude Fable 5를 사용하여 수행한 비엔지니어의 관점에서 작성되었습니다. 만약 당신이 지식 노동을 하고 있으며, 이 모델이 당신의 일상을 바꿀 수 있을지 알고 싶다면, 이 글은 당신을 위해 쓰였습니다.

명칭에 관한 참고 사항: Claude Fable 5는 Anthropic의 새로운 Claude 5 제품군 중 첫 번째 모델로, 일반적으로 사용 가능한 가장 진보된 Claude 모델인 Claude Opus보다 상위에 위치하는 새로운 티어 (tier)입니다. 저는 출시 전에 이에 대한 접근 권한을 가졌으므로, 여기에 담긴 모든 내용은 데모가 아닌 실제 작업에서 나온 결과입니다.

왜 '안목 테스트 (eye test)'인가

대부분의 리뷰는 벤치마크 (benchmarks)로 당신을 압도합니다. 당신이 절대 실행하지 않을 테스트 점수, 그리고 당신의 실제 업무와는 전혀 닮지 않은 작업들에 대한 점수들 말입니다. 그것들은 모델이 똑똑하다고 말해줄 뿐, 그 모델이 제값을 하는지는 알려주지 않습니다.

분명히 말씀드리자면, 이번에 벤치마크 (benchmarks) 자체에 의문을 제기하는 것은 아닙니다. Claude Fable 5는 테스트된 거의 모든 분야에서 상당한 격차를 두고 최첨단 (state of the art) 성능을 보여줍니다. 이는 진정으로 흥미로운 출시입니다. 하지만 제가 이 글을 쓰는 이유는 그것 때문이 아닙니다. 질적으로 볼 때, 이것은 메이저 버전 업데이트를 정당화할 만한 단계적 변화이며, 이는 작년 11월 4.5 버전이 나왔을 때 느꼈던 도약과 맞먹는 수준입니다. 그리고 이것은 바로 어떤 벤치마크도 보여줄 수 없는 부분입니다.

저는 다르게 평가합니다. 모델을 실제 업무에 투입하고 어떤 일이 일어나는지 지켜봅니다. 모델이 내 시간을 절약해 주는가, 아니면 시간을 낭비하게 만드는가? 내가 놓친 것을 잡아내는가? 파트너처럼 느껴지는가, 아니면 내가 계속 돌봐줘야 하는 도구처럼 느껴지는가? 그것이 바로 안목 테스트 (eye test)이며, 제가 여기서 Claude Fable 5에 적용하고 있는 기준입니다.

요약하자면: 이 모델은 중요한 모든 차원에서 통과한 아주 오랜만의 모델입니다. 조금이 아니라, 압도적으로 통과했습니다.

관점: 제가 실제로 측정하는 것

저는 그 모든 작업을 모델에 쏟아부었습니다. 제가 결과를 판단할 때 살펴보는 항목은 다음과 같습니다:

  1. 거대 모델의 느낌 (Big model feel): 진정한 도약처럼 느껴지는가, 아니면 지난달보다 약간 더 나은 버전인가?
  2. 구축 및 출시 (Building and shipping): 아이디어를 작동 가능하고 출시 가능한 결과물로 만들어낼 수 있는가?
  3. 글쓰기와 목소리 (Writing and voice): 사람처럼, 특히 저와 같은 말투로 들릴 수 있는가?
  4. 타인이 놓치는 것을 발견하기: 어렵고 숨겨진 문제들을 포착하는가?
  5. 인간적 요소 (The human factor): 제가 요청하기 전에 제가 무엇을 필요로 할지 예측하는가?

그런 다음, 실제 수치를 바탕으로 이 모든 것을 비용과 비교하여 무게를 둡니다. Claude Fable 5의 점수는 다음과 같았습니다.

  1. 거대 모델의 느낌 (Big model feel)

Opus 4.5 이후로 이런 느낌을 받은 적이 없습니다. 첫 번째 진지한 작업부터 Claude Fable 5는 저에게 그 거대 모델의 느낌을 주었습니다. 그것을 사용하는 것만으로도 불공평한 우위를 점하고 있다는 느낌 말입니다. 이는 점진적인 발전이 아니라 거대한 도약입니다. 추론 (Reasoning), 글쓰기 (Writing), 구축 (Building), 보안 (Security) 등 모든 분야에서 강력하며, 작업을 시작하는 순간 바로 드러납니다.

또한 다른 모델들보다 더 오래 생각하고 문제를 더 신중하게 해결한다는 것을 느낄 수 있습니다. 가장 명확한 신호는 이렇습니다. 제가 확실한 준비 자료를 건네주었음에도 불구하고, 모델은 단순히 그 자료 안에만 머물지 않았습니다. 제 파일을 읽고, 실제 상황을 파악한 뒤, 제가 지정한 환경 안에서만 맴도는 대신 제가 그려놓은 틀 밖에서 더 나은 경로를 찾아 나섰습니다. 이러한 주도성 덕분에 제가 설정한 대로만 따랐을 때보다 눈에 띄게 더 나은 결과를 얻을 수 있었습니다.

  1. 구축 및 출시 (Building and shipping - UI/UX)

이 지점이 바로 모델의 존재감이 드러난 곳입니다.

저는 에이전트 (Agents)를 위해 스택을 현대화하고자 우리 Tenex 사이트를 재구축하고 있었습니다. 단순한 외관상의 리브랜딩이 아니었습니다. 목표는 기술 스택 (Tech stack), 에이전트 스택 (Agent stack), 그리고 작업이 향하고 있는 곳에서 승리하기 위해 필요한 AEO (Answer Engine Optimization)를 갖추어, 기존 설정을 벗어나 에이전트 시대 (Agentic era)를 위해 구축된 기반으로 이동하는 것이었습니다. 사이트가 매우 커스텀화되어 있어 작업이 어려웠습니다. Claude Fable 5를 사용하기 전 제가 올라갔던 단계는 다음과 같습니다.

GPT 5.5와 Claude 4.8도 스스로 빌드를 시도해 보았습니다. 하지만 둘 다 근처에도 가지 못했습니다. 그래서 저는 디자인을 Figma로 가져온 다음, Figma를 Claude Design으로 불러왔습니다. Claude Design이 지금까지는 가장 근접한 결과물(외관의 약 90% 수준)을 보여주며 단독으로 작동하는 모델들보다 나은 모습을 보였지만, 모션(motion)과 특수한 디자인 디테일은 많이 놓쳤습니다. v1 패스(v1 pass)용으로는 충분했기에, 저는 그 파일을 4.8과 GPT 5.5에게 전달하여 실제 사이트로 변환하도록 했습니다. 그럼에도 불구하고 그들은 Claude Design 파일을 맞추는 데 어려움을 겪었습니다. 저는 강하게 밀어붙여야 했고, 그들은 원본 Figma 파일을 계속 참조했음에도 불구하고 약 85~90% 정도의 완성도에 머물렀습니다. 그 시점에서 저는 이 결과물을 아예 다시 구축할 수 있을지 확신이 서지 않았습니다.

그때 Claude Fable 5를 만났습니다. 이 모델은 모든 파일을 살펴보더니 더 잘할 수 있다고 말했습니다. Claude Fable 5는 곧장 소스인 원본 Webflow 사이트로 가서 모든 에셋(asset)을 다운로드하고, 한 페이지씩 전체 경험을 재구축했습니다. 거의 한 번에(one-shot) 전체를 완성해 버렸습니다.

하지만 저는 거기서 멈추지 않았습니다. 저는 완전히 새로운 디자인을 적용하여 두 번째 사이트를 구축했습니다. 현대적인 기술 스택(tech stack), 에이전트 스택(agent stack), 기술, SEO(검색 엔진 최적화) 및 AEO(답변 엔진 최적화)가 최적화되었으며, 주말 동안 배포 준비가 완료된 80개의 페이지를 포함한 결과물은 믿기지 않을 정도로 훌륭했습니다. 과거에 제가 에이전시 운영자였다면 이 작업에 쉽게 5만 달러를 청구했을 것입니다. Fable은 정말로 이를 주말 만에 만들어냈습니다.

또한 저는 Fable이 완전한 프로그래밍 방식의 클립 공장(programmatic clip factory)을 구축하도록 했습니다. Fable은 아바타를 위한 @HeyGen, 모션 그래픽 및 편집을 위한 @HyperFrames_, 오디오를 위한 @ElevenLabs, Cloudflare Workers, 그리고 VPS를 사용하여 전체 스택을 하나로 연결했습니다. 아직 완벽하지는 않지만, 제가 기대했던 것보다 훨씬 더 멀리 나아갔습니다. 이 시스템은 주제 선정, 스크립트 작성, 썸네일 제작, 영상 편집, 음악 작곡, 모션 그래픽 추가, 그리고 소셜 미디어 게시까지 전체 파이프라인(pipeline)을 실행합니다. 저는 다른 빌드 작업을 진행하는 동안 이 시스템을 백그라운드에서 실행했습니다. 이 시스템은 오랫동안 스스로 작동했으며, 한때는 서로 다른 플랫폼 간의 렌더링을 모니터링하기 위해 웹훅(webhooks)을 사용하는 수집 시스템(fetching system)을 스스로 구축하기도 했습니다. 심지어 참조 자료로부터 명확한 시각적 지침을 받아 이를 그대로 구현해냈습니다. 이것이 바로 이전 모델들은 유지해내지 못했던, 장기적이고(long-horizon) 스스로 작동하는(run-on-its-own) 작업입니다.

  1. 글쓰기와 목소리 (Writing and voice)

저는 GPT 5.5와 Claude 4.8을 조합하여 우리 브랜드의 목소리(brand voice)를 재구축해 왔습니다. 우리 웹사이트를 참조하여 목소리 스타일 가이드(voice style guide)와 우리가 글을 쓰는 톤(tone) 등 모든 것을 포함했습니다. 5.5와 4.8 모두 웹사이트를 목소리 문서(voice doc)로 변환하는 데 있어 칭찬할 만한 성과를 보여주었습니다.

Claude Fable 5는 그 목소리 문서를 거의 동일하게 복제한 다음, 다른 모델들이 할 수 없었던 일을 해냈습니다. 스타일 가이드를 가져와서 새로운 사이트의 80페이지에 걸쳐 기능(features), 사례 연구(case studies), 블로그 기사, 플레이북(playbooks)을 작성했습니다. 제가 원하는 바를 적절히 학습하고 나자, 원본 참조 자료에 대해 제가 본 것 중 가장 정직한 경의를 표했으며, 그 목소리를 잃지 않으면서 완전히 새로운 영역으로 깔끔하게 확장해 나갔습니다.

두 가지가 눈에 띄었습니다. 첫째, 이제는 누구나 멀리서도 알아챌 수 있는 평면적인 AI 기본값(AI default)이 아니라, 사람처럼 글을 썼습니다. 둘째, 보통 모델들이 무너지는 지점인 몇 문단 뒤에 톤이 어긋나는 대신, 사이트 전체에 걸쳐 목소리를 유지했습니다.

제가 AI 글쓰기를 테스트하는 방법은 간단합니다. '얼마나 많이 다시 작업해야 하는가'입니다. 대부분의 모델은 백지 상태를 벗어나게 해주는 대신, 편집 과정에서 은밀하게 시간을 다시 뺏어갑니다. Claude Fable 5는 초안이 실제로 바로 사용할 수 있을 만큼 충분히 완성도 높았던 드문 사례였습니다.

  1. 타인이 놓치는 것을 찾아내기 (보안)

이 부분은 예상은 했지만, 이 정도 수준일 줄은 몰랐습니다.

저는 매우 큰 리포지토리 (repo)를 가지고 있었습니다. Claude 4.8과 GPT 5.5 모두 이 리포지토리에서 작업해 왔지만, 이 위험 요소를 한 번도 지적하지 않았습니다. Claude Fable 5는 리포지토리를 처음 훑어보는 과정에서 심각한 버그 (bug)를 찾아냈습니다. 교묘하고 잘 숨겨져 있어서, 두 개의 프론티어 모델 (frontier models)이 방금 저에게 없다고 말했던 바로 그런 종류의 버그였습니다. 그러고 나서 Fable은 즉석에서 이를 패치 (patch)했습니다.

이것이 무엇을 의미하는지 곱씹어 보십시오. 그 버그는 그대로 배포될 뻔했습니다. 사용 가능한 최고의 모델 두 개가 해당 코드에 승인을 내린 상태였습니다. 만약 제가 대부분의 사람들처럼 거기서 멈췄다면, 그것은 프로덕션 (production) 환경으로 넘어가게 되었을 것이고, 저는 고생하며 뒤늦게 이를 깨달았을 것입니다. Claude Fable 5는 단순히 다른 두 모델과 대등한 수준을 넘어, 비엔지니어인 제가 스스로 검증하기 가장 어려운 종류의 작업에서 그들이 놓친 것을 잡아냈습니다. 이것은 실제로 당신을 구해주는 날이 오기 전까지는 가격을 매기기 어려운 가치입니다. 이런 사례 한 번이 도구 전체의 비용을 상쇄할 수 있습니다.

  1. 인간적인 요소

제 기억에 가장 강렬하게 남은 것은 사소한 것이었습니다. 크론 잡 (cron job)이 끝나기를 기다리는 동안 질문을 하나 던졌습니다. 모델은 답변을 한 뒤, 타이머가 약 10분 정도 남았으며 작업이 완료되면 알려주겠다고 스스로 덧붙였습니다. 저는 타이머에 대해 묻지 않았습니다. 모델은 단지 제가 알고 싶어 할 것이라는 점을 인지하고 정보를 제공한 것입니다.

이것이 범용 인공지능 (AGI)은 아니지만, 단순히 반응하는 것을 넘어 사용자를 예측하는 모델에 가장 가깝게 느껴진 경험이었습니다. 이것이 바로 이 모델을 소프트웨어라기보다 영리한 누군가와 함께 일하는 것처럼 느끼게 만드는 지점입니다.

증빙 자료

저는 이를 추적해 왔으며, 여기 실제 수치가 있습니다. 비용부터 시작하자면, 이는 전적으로 어떤 모델이 작업을 수행하느냐에 따라 달라집니다.

이 작업 부하에 대한 비용: Claude Fable 5 | $1,442 (1.04 Billion tokens)

하지만 이는 제가 실제로 얻은 결과물을 지나치게 과소평가한 것입니다. 며칠 동안 저는 새로운 웹사이트, 그에 필요한 모든 인프라(infrastructure), 그리고 작동 가능한 에이전트 패키지(agent package)를 포함하여 엄청나게 많은 것들을 만들어냈습니다. 대행사(agency)였다면 이 작업만으로도 고객에게 최소 30,000달러에서 50,000달러는 청구했을 것입니다.

따라서 계산을 관통하는 질문은 이것입니다. 제가 얻은 결과물을 위해 1,450달러의 토큰 비용을 지불해야 한다면? 100%입니다. 망설임 없이 지불할 것입니다. 품질이 그만큼 좋았습니다.

그것이 바로 중요한 관점입니다. 투입된 시간만 따져봐도, 정가로 이용하더라도 이미 비용의 몇 배를 뽑아내고도 남습니다. 완성된 작업물의 실제 가치와 비교하면 비교조차 되지 않습니다. 캐시(cache) 사용량이 많은 볼륨이 여전히 비용을 높이는 요인이므로, 어떻게 실행하느냐가 중요합니다. 하지만 수학적 계산 때문에 이것이 미미한 지출이라고 생각하며 속지 마십시오. 이것은 제가 도구(tooling)에 사용한 돈 중 최고의 지출입니다.

불만스러운 점: 그렇긴 하지만, 다른 어떤 모델보다도 비용이 올라가는 것이 실시간으로 느껴지며, 그 비용은 실제로 발생합니다.

위의 영수증은 작업의 가치가 모든 달러만큼 충분했음에도 불구하고, 왜 여전히 비용을 주시해야 하는지를 보여줍니다. Anthropic은 이를 숨기지 않습니다. 그들은 Fable 5가 더 오래 생각하고 더 많이 검증하도록 설계된, 의도적으로 토큰 집약적(token-intensive)인 모델이라고 부르며, 이는 Opus나 Sonnet보다 사용 제한(usage limits)에 약 두 배 더 빨리 도달합니다.

이는 제가 가장 원하는 한 가지, 즉 작업 복잡도에 따른 자동 라우터(auto-router)가 필요한 이유이기도 합니다. 현재 저는 토큰을 아끼기 위해 대화 중간에 수동으로 기어를 변속해야 하며, 저는 그런 생각을 하고 싶지 않습니다. 제가 간단한 것을 요청하면, 모델이 스스로 하위 단계로 전환하여 처리하고, 실제로 지능이 필요한 작업에 값비싼 지능을 아껴두어야 합니다. 이것은 단순히 흐름(flow)의 문제가 아닙니다. 경제성의 문제입니다. 스마트한 라우터는 간단한 작업은 저렴한 모델에서 유지하고, 작업의 난이도가 정당화될 때만 Claude Fable 5로 격상시키며, 이것이 효율성 2.5와 9.7의 차이를 만드는 핵심입니다. 이것이 존재하기 전까지, 프런티어 모델(frontier model)을 잘 사용하는 방법은 모델의 노력 수준을 능동적으로 전환하며 스스로 머릿속에서 라우팅을 수행하는 것을 의미합니다.

전문가 팁 #1: 하이브리드(hybrid) 방식으로 실행하세요

지능을 포기하지 않으면서 비용을 통제하는 방법은 다음과 같습니다. 모든 것을 Claude Fable 5로 실행하지 마세요. 모델 간의 릴레이(relay)를 실행하십시오.

  1. Claude Fable 5로 생각하기: 비용이 많이 드는 사고 과정, 즉 고수준의 계획(high-level planning), 전략(strategy), 아키텍처(architecture), 그리고 작업이 시작되기 전 전체적인 접근 방식을 매핑하는 데 사용하세요. 이 단계가 Claude Fable 5의 강점이 가장 크면서도 토큰(token) 사용량은 가장 적은 구간입니다.

  2. 4.8, GPT5.5 또는 Sonnet 4.6으로 구축하기: 계획을 더 저렴한 모델에게 넘겨 실무를 수행하게 하세요. 즉, 구현(implementation), 반복적인 작업(repetitive passes), 대량의 단순 노동(high-volume grunt work)을 맡기는 것입니다. 이러한 작업들이 비용을 급증시키며, 여기에는 프론티어(frontier)급 두뇌가 필요하지 않습니다.

  3. Claude Fable 5로 검토하기: 결과를 확인하기 위해 다시 Claude Fable 5로 가져옵니다. 보안 스캔(security scan)에서 보여주었듯, 저렴한 모델이 놓치는 부분을 잡아냄으로써 여기서 두 번째로 제값을 하게 됩니다.

이렇게 하면 심도 있는 전략과 프론티어급의 제2의 눈을 확보하면서도, 비용의 대부분을 차지하는 대량 작업으로부터 비싼 모델을 분리할 수 있습니다. 프론티어급 사고, 저렴한 손, 프론티어급 검토. 이는 진정한 오토 라우터(auto-router)가 등장하기 전까지 가장 근접한 방식입니다.

전문가 팁 #2: 작업에 맞춰 노력(effort) 설정을 맞추세요

Fable 5에는 노력(effort) 설정이 있으며, 이는 예상보다 훨씬 중요합니다. 노력 설정은 답변하기 전에 얼마나 깊이 생각할지를 제어하며, 이는 곧 여러분의 청구 금액을 제어한다는 의미이기도 합니다.

  1. High(높음): 대부분의 작업에 가장 적합한 지점입니다. 여기서부터 시작하세요.
  2. Extra high(매우 높음): 모델이 끝까지 파고들기를 원하는 가장 어렵고 오래 걸리는 작업에 사용하세요.
  3. Low(낮음) 또는 medium(중간): 전체 엔진이 필요하지 않은 빠르고 주고받는 방식의 세션에 사용하세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 X 토픽: Benchmark의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0