역대 최강 모델이 포켓몬을 비전만으로 깼다 — Fable 5 가격·성능 정리 - Insights | Molayo

더 많은 글은 radarlog.kr에서. 원문은 Anthropic 공식 발표에서.

Claude가 포켓몬 파이어레드를 처음부터 끝까지 클리어했다.

맵도, 길찾기 보조도, 게임 상태 정보도 없이. 그냥 화면 스크린샷만 보고.

이게 왜 충격이냐면, 예전 Claude 모델들은 포켓몬 하나 깨려고 별별 보조 도구를 다 붙인 하네스를 만들어줘도 헤맸기 때문이다. 근데 이번에 나온 모델은 비전만 쓰는 최소 하네스로 끝을 봤다.

그 모델 이름이 Fable 5다. 오늘(6월 9일) Anthropic이 풀었다.

그리고 함정이 하나 있다. 지금 구독 플랜이면 공짜로 쓸 수 있는데, 6월 22일까지만 그렇다. 23일부터는 돈을 따로 내야 한다. 이 얘긴 뒤에서 제대로 다루겠다.

Mythos가 뭐길래 — 그동안 안 풀던 등급

Anthropic 모델 라인은 Opus, Sonnet, Haiku였다. 큰 거, 중간 거, 빠른 거.

근데 그 위에 Mythos라는 등급이 하나 더 있다. Opus보다 윗줄이다.

문제는 이 Mythos가 너무 세서, Anthropic이 일부러 공개를 안 했다는 거다. 4월에 Mythos Preview를 처음 공개했을 때도 일반 사용자한테 안 풀고, Project Glasswing이라는 사이버보안 프로그램으로 검증된 소수 기관한테만 줬다.

이유가 명확하다. 이 등급 모델이 소프트웨어 취약점을 찾고 익스플로잇하는 데 비정상적으로 강해서다. 사이버 방어자 손에 들어가면 방어를 강화하지만, 공격자 손에 들어가면 그대로 무기가 된다.

그래서 Fable 5는 Mythos에 가드레일을 씌운 버전이다.

이름 유래가 재밌다. Fable은 라틴어 fabula(이야기되는 것)에서 왔고, 이게 그리스어 _mythos_랑 같은 뿌리다. 같은 모델인데, 안전장치 유무로 이름을 나눈 거다. 가드레일 없는 원본은 Mythos 5고, 그건 여전히 검증된 소수한테만 간다.

게임으로 비유하면 이렇다. Mythos 5가 치트 다 켠 개발자 빌드라면, Fable 5는 그 빌드에서 위험한 콘솔 명령어만 막아놓고 일반 배포한 버전이다. 엔진은 같다. 막아놓은 문만 다르다.

구체적으로 뭘 막느냐면, 사이버보안·생물학·화학·디스틸레이션 관련 질문이 들어오면 Fable 5가 직접 답을 안 하고 Opus 4.8한테 넘긴다. 답을 거부당하는 게 아니라, 한 단계 낮은(그래도 충분히 센) 모델이 대신 받아준다. 사용자한테는 "이거 넘어갔어요"라고 알려준다.

이 폴백이 얼마나 자주 터지냐. Anthropic 말로는 세션의 5% 미만이다. 거꾸로 말하면 95% 넘는 세션에선 폴백이 한 번도 안 걸리고, 그 세션에선 사실상 Mythos 5랑 똑같은 성능을 쓰는 셈이다.

가드레일이 얼마나 단단한지는 외부 버그바운티로 검증했다. 1,000시간 넘게 뚫으려 했는데 범용 탈옥(universal jailbreak)을 못 찾았다고 한다. 물론 영국 AISI가 짧은 테스트 창에서 진전을 봤다는 단서는 달려 있긴 하다.

가격 — $10/$50, 비싸 보이지만 맥락이 있다

본론. 너가 궁금해할 가격부터 깐다.

Fable 5와 Mythos 5는 똑같이 입력 100만 토큰당 $10, 출력 100만 토큰당 $50이다.

다른 모델이랑 나란히 놓고 보면 이렇다.

Fable 5 / Mythos 5   $10 / $50
Opus 4.8             $5  / $25   (Fast Mode는 $10 / $50)
Sonnet 4.6           $3  / $15
Haiku 4.5            $1  / $5

숫자만 보면 역대 일반 공개 모델 중 제일 비싸다. 근데 두 가지를 같이 봐야 한다.

첫째, Opus 4.8 Fast Mode랑 단가가 똑같다. Opus 4.8을 2.5배 빠르게 돌리는 모드가 $10/$50인데, 그 돈이면 Opus보다 윗줄인 Fable을 쓴다는 얘기다. 같은 값에 더 센 엔진.

둘째, Mythos Preview 대비 절반 이하 가격이다. 등급은 그대로 올리면서 가격은 반 토막 냈다.

그리고 토큰 단가가 끝이 아니다. 프롬프트 캐싱 켜면 캐시된 입력은 최대 90% 깎이고, 배치 API는 전체 50% 할인이다. 반복 컨텍스트가 많은 워크플로우면 실제 청구액은 sticker 가격보다 훨씬 내려간다.

서버 운영해본 사람은 안다. 인스턴스 시간당 단가만 보고 "비싸다"고 하면 틀린다. 같은 일을 몇 시간 만에 끝내냐가 진짜 비용이다. Fable은 바로 그 "몇 시간"을 줄이는 쪽으로 만든 모델이다.

성능 — 5천만 줄 코드베이스를 하루 만에 마이그레이션

성능 얘기는 데모 하나로 끝난다.

Stripe가 초기 테스트에서 5천만 줄짜리 Ruby 코드베이스를 코드베이스 전체 마이그레이션 돌렸다. 사람 팀이 손으로 했으면 두 달 넘게 걸릴 작업을, Fable 5가 하루 만에 끝냈다.

사람 팀:  2개월+
Fable 5:  1일

이게 가능한 핵심이 "롱호라이즌"이다. 며칠씩 끊기지 않고 일하는 능력. 단계별로 계획 짜고, 서브에이전트한테 일 나눠주고, 자기 결과물을 스스로 테스트하고 검증한다.

너가 Planner/Generator/Evaluator 하네스 직접 짜면서 고생했던 그 구조를, 모델이 어느 정도 내장하고 들어온 거다. 외부에서 오케스트레이션 안 해줘도 혼자 며칠을 버틴다.

벤치마크도 받쳐준다. Cognition의 FrontierCode 평가가 있는데, 이건 단순히 코딩 문제를 푸느냐가 아니라 고품질 프로덕션 코드베이스 기준을 맞추면서 푸느냐를 본다. Fable 5는 여기서 프론티어 모델 중 1위인데, 그것도 medium effort에서 그렇다. 풀 파워가 아니라 중간만 켜고도 1등이라는 뜻이다.

코딩만 잘하는 것도 아니다. Hebbia의 시니어급 금융 추론 벤치마크에서 최고점을 받았고, 한 파트너는 자기네 분석 벤치마크에서 처음으로 90%를 넘긴 모델이라며 Opus 대비 10점 점프라고 했다.

토큰 효율도 좋아졌다. 한 물리 연구 파트너는 GPT-5.5가 4일 걸려 도달한 지점을 Fable이 36시간에, 그것도 추론 토큰을 3분의 1만 쓰고 도달했다고 했다.

게임으로 증명한 부분 — 여기가 진짜 재밌다

게임 프로그래머 입장에서 제일 흥미로운 건 이 모델을 게임으로 검증했다는 점이다. 벤치마크 숫자보다 이게 훨씬 직관적이다.

포켓몬 파이어레드. 앞에서 말한 그거다. 맵도 길찾기도 없이, 순수 화면 픽셀만 보고 처음부터 끝까지 깼다. 비전이 SOTA라는 걸 점수로 말하는 대신, 게임 하나 끝까지 미는 걸로 보여준 거다. 스크린샷만 보고 웹앱 소스코드를 통째로 재구성하는 데모도 같이 나왔다.

Slay the Spire. 로그라이크 덱빌더다. 여기서 흥미로운 건 메모리 실험이다. 파일 기반 영구 메모리를 붙여줬더니, 그 메모리가 성능을 끌어올린 폭이 Opus 4.8보다 3배 컸다. 게임 최종 막까지 도달한 빈도도 3배 높았다.

이게 왜 중요하냐. 메모리 시스템을 똑같이 붙여도, 그걸 활용하는 능력이 모델마다 다르다는 거다. 세이브 파일을 줘도 그걸 읽고 다음 판에 써먹는 머리가 있어야 의미가 있다. Fable은 그 활용력이 다르다.

Factorio. 엔지니어들이 환장하는 공장 자동화 게임이다. Fable이 사람 개입 없이 혼자 전략 짜고 자동화 공장을 지었다. Factorio 해본 사람은 이게 단순 클리어가 아니라 시스템 설계 + 장기 최적화 문제라는 걸 안다. 끊김 없이 며칠 버티는 롱호라이즌 능력이 게임 안에서 그대로 드러난다.

데모는 더 있다. 물리 1원리부터 유도해서 태양계 시뮬레이션을 만들고 일식을 예측하거나, 브라우저 CAD 에디터를 만들고 그 안에서 3D 프린팅 모델을 설계하거나, 한 번도 음악을 들어본 적 없는데 코드로 EDM 비트에 맞춘 유체 시뮬레이션을 짜거나.

게임과 시뮬레이션은 거짓말을 못 한다. 벤치마크는 오버핏 의심이라도 하지, 게임을 끝까지 미는 건 그냥 되거나 안 되거나다. Anthropic이 굳이 게임 데모를 전면에 깐 이유가 이거라고 본다.

그래서 구독자는 뭘 해야 하나 — 6월 22일이 끝이다

여기가 실용 파트다. 다시 그 함정.

지금 Pro, Max, Team, seat 기반 Enterprise 구독이면 Fable 5가 6월 9일부터 22일까지 추가 비용 없이 플랜 한도 안에서 그냥 쓰인다.

6월 23일이 되면 Anthropic이 구독 플랜에서 Fable을 빼버린다. 그 이후로 쓰려면 사용 크레딧(usage credit)이 필요하고, API 단가($10/$50) 기준으로 차감된다.

6/9 ~ 6/22   구독에 포함, 공짜
6/23 ~       플랜에서 빠짐, 크레딧 차감

이유는 늘 그렇듯 용량이다. 수요 예측이 안 되니까 일단 보수적으로 단계 배포하는 거고, 인프라 여유가 생기면 다시 구독 기본 기능으로 되돌리겠다고는 했다. 근데 복구 날짜는 안 정해졌다.

커뮤니티에선 "2주 줬다가 뺏는 거냐"는 반응도 있다. 미끼냐는 거다. 입장은 갈리는데, 어쨌든 사용자 입장에서 할 일은 명확하다.

쓸 거면 6월 22일 안에 굴려봐라.

평소 손 못 대던 작업, 한 번 던져보면 된다. 며칠짜리 마이그레이션, 복잡한 멀티에이전트 워크플로우, 큰 리팩토링. Opus가 중간에 퍼지던 롱호라이즌 작업을 이 2주 동안 공짜로 테스트할 수 있다.

마지막으로 하나. 비즈니스 트래픽은 30일 데이터 보존 정책이 새로 붙는다. Mythos 등급 모델은 안전 목적상 30일간 데이터를 보관한다(학습엔 안 쓴다). 민감한 코드 돌릴 거면 이건 알고 가자.

같은 값에 더 센 엔진을 2주간 공짜로 준다.
안 굴려보는 게 손해다.

역대 최강 모델이 포켓몬을 비전만으로 깼다 — Fable 5 가격·성능 정리

요약

핵심 포인트

Mythos가 뭐길래 — 그동안 안 풀던 등급

가격 — $10/$50, 비싸 보이지만 맥락이 있다

성능 — 5천만 줄 코드베이스를 하루 만에 마이그레이션

게임으로 증명한 부분 — 여기가 진짜 재밌다

그래서 구독자는 뭘 해야 하나 — 6월 22일이 끝이다

댓글