시각 정보만으로 Pokémon을 정복한 역대 가장 강력한 모델 — Fable 5 분석 - Insights | Molayo

더 많은 게시물은 radarlog.kr에서 확인하세요. 원문 공지는 Anthropic에서 볼 수 있습니다.

Claude가 Pokémon FireRed를 처음부터 끝까지 클리어했습니다.

지도도 없고, 내비게이션 보조 도구도 없으며, 게임 상태 피드(game-state feed)도 없습니다. 오직 가공되지 않은 화면 픽셀(pixels)뿐입니다.

이것이 왜 대단한 일인지 설명해 드리겠습니다. 이전의 Claude 모델들은 보조 도구가 가득 담긴 하네스(harness)를 제공했을 때조차 Pokémon 플레이에 어려움을 겪었습니다. 하지만 이 새로운 모델은 순수하게 시각(vision)만 사용하는 하네스로 게임을 완료했습니다.

이 모델의 이름은 Fable 5입니다. Anthropic은 오늘 6월 9일에 이를 출시했습니다.

그리고 주의할 점이 있습니다. 유료 플랜을 사용 중이라면 지금 바로 무료로 이용할 수 있지만, 6월 22일까지만 가능합니다. 23일부터는 별도로 비용을 지불해야 합니다. 이 함정에 대해서는 나중에 더 자세히 다루겠습니다.

Mythos란 무엇인가 — 그들이 잠가두었던 티어

Anthropic의 라인업은 Opus, Sonnet, Haiku였습니다. 대형, 중형, 고속 모델이죠.

하지만 Opus
_위_에 위치한 또 다른 티어가 있습니다: 바로 Mythos입니다.

문제는 Mythos가 너무 강력해서 Anthropic이 의도적으로 일반 대중에게 공개하지 않았다는 점입니다. 지난 4월 Mythos Preview를 공개했을 때, 그들은 일반 사용자에게 이를 제공하지 않았습니다. 대신 Project Glasswing라는 사이버 보안 프로그램을 통해 검증된 소수의 조직에만 전달했습니다.

이유는 명확합니다. 이 티어는 소프트웨어 취약점(vulnerabilities)을 찾아내고 악용하는 데 경이로울 정도로 뛰어납니다. 사이버 방어자의 손에 있으면 방어를 강화하지만, 공격자의 손에 있으면 무기가 됩니다.

따라서 Fable 5는 가드레일(guardrails)이 단단히 고정된 Mythos입니다.

이름 짓기 방식이 아주 탁월합니다. Fable은 라틴어 fabula(

구체적으로, 쿼리가 사이버 보안 (cybersecurity), 생물학 (biology), 화학 (chemistry) 또는 증류 (distillation)와 관련된 경우, Fable 5는 직접 답변하지 않고 Opus 4.8으로 작업을 넘깁니다 (hands off). 단순히 거절당하는 것이 아니라, 약간 더 낮은 (하지만 여전히 매우 강력한) 모델이 요청을 가로채며, 해당 과정이 발생했음을 사용자에게 알려줍니다.

이러한 폴백 (fallback)이 얼마나 자주 발생할까요? Anthropic에 따르면 세션의 5% 미만입니다. 이를 뒤집어 생각하면, 95% 이상의 세션에서는 아무것도 라우팅되지 않으며, 그 세션들에서는 사실상 Mythos 5와 동일한 것을 실행하는 셈입니다.

그들은 외부 버그 바운티 (bug bounty)를 통해 가드레일 (guardrails)을 스트레스 테스트했으며, 1,000시간 이상의 시도 끝에 보편적인 탈옥 (jailbreak)은 발견되지 않았습니다. (공정하게 말하자면, 영국 AISI가 짧은 기간 동안 어느 정도 진전을 보였다고 보고되긴 했습니다.)

가격 — $10/$50, 비싸 보이지만 맥락이 있습니다

본론으로 들어가겠습니다. 여러분이 실제로 신경 쓰는 숫자입니다.

Fable 5와 Mythos 5는 모두 입력 토큰 100만 개당 $10, 출력 토큰 100만 개당 $50의 비용이 듭니다.

다른 모델들과 비교하면 다음과 같습니다:

Fable 5 / Mythos 5   $10 / $50
Opus 4.8             $5  / $25   (Fast Mode는 $10 / $50)
Sonnet 4.6           $3  / $15
...

서류상으로는 지금까지 공개된 모델 중 가장 비쌉니다. 하지만 그와 함께 고려해야 할 두 가지 사항이 있습니다.

첫째, Opus 4.8 Fast Mode와 동일한 요율입니다. Fast Mode는 Opus를 약 2.5배 빠른 속도로 $10/$50에 실행합니다. 즉, 같은 비용으로 Opus보다 한 단계 _위_에 있는 Fable을 사용하는 것입니다. 가격은 같지만 엔진은 더 강력합니다.

둘째, Mythos Preview 가격의 절반 미만입니다. 그들은 티어 (tier)를 높이는 동시에 비용을 절반으로 줄였습니다.

그리고 토큰 요율이 전부가 아닙니다. 프롬프트 캐싱 (Prompt caching)은 캐싱된 입력 비용을 최대 90%까지 절감해주며, 배치 API (batch API)는 일괄적으로 50% 할인을 제공합니다. 반복되는 컨텍스트 (context)가 많은 모든 워크플로 (workflow)는 표기된 가격보다 훨씬 낮은 비용으로 운영될 수 있습니다.

서버를 운영해 본 사람이라면 누구나 압니다. 시간당 인스턴스 요율로

단 하나의 데모가 성능에 대한 의구심을 종결시킵니다.

초기 테스트 단계에서 Stripe는 5,000만 줄 규모의 Ruby 코드베이스 전체에 대한 마이그레이션(migration)을 수행했습니다. 사람이 직접 수행했다면 두 달 이상이 걸렸을 작업입니다. Fable 5는 이를 단 하루 만에 완료했습니다.

사람 팀: 2개월 이상
Fable 5: 1일

이것을 가능하게 만드는 핵심은 "장기적 관점 (long-horizon)", 즉 맥락을 놓치지 않고 며칠 동안 작업을 지속할 수 있는 능력입니다. 이 모델은 단계별로 계획을 세우고, 하위 에이전트 (sub-agents)에게 작업을 위임하며, 자신의 출력물을 스스로 테스트하고 검증합니다.

여러분이 직접 구축하기 위해 고군분투했던 그 플래너/생성기/평가기 (Planner/Generator/Evaluator) 구조(harness) 말인가요? 이 모델은 그 기능의 상당 부분을 내장한 채 출시되었습니다. 외부에서 별도로 오케스트레이션 (orchestration) 하지 않아도 며칠 동안 스스로 작업을 유지합니다.

벤치마크 결과가 이를 뒷받침합니다. Cognition의 FrontierCode 평가(eval)는 단순히 모델이 코딩 작업을 해결하는지 확인하는 데 그치지 않고, 프로덕션급 (production-grade) 코드베이스 표준을 준수하며 해결하는지를 확인합니다. Fable 5는 이 평가에서 프런티어 모델 (frontier models) 중 최고를 기록했으며, 심지어 중간 정도의 노력만으로 이뤄낸 결과입니다. 풀 파워를 내지도 않고 1위를 차지한 것입니다.

코딩만이 전부가 아닙니다. Hebbia의 시니어 레벨 금융 추론 벤치마크에서 최고 점수를 기록했으며, 한 파트너는 이 모델이 자사의 분석 벤치마크에서 90%를 돌파한 첫 번째 모델이라고 불렀습니다. 이는 Opus보다 10포인트 높은 수치입니다.

토큰 효율성 (Token efficiency) 또한 향상되었습니다. 한 물리 연구 파트너는 Fable이 GPT-5.5가 4일 걸려 도달했던 지점에, 추론 토큰 (reasoning tokens)을 3분의 1만 사용하여 36시간 만에 도달했다고 밝혔습니다.

게임을 통해 증명됨 — 이 부분이 가장 흥미롭습니다

게임 프로그래머로서 가장 흥미로운 점은 그들이 이 모델을 게임을 통해 검증했다는 사실입니다. 이는 벤치마크 수치보다 훨씬 직관적입니다.

Pokémon FireRed. 서론에 나온 바로 그 게임입니다. 지도도 없고, 경로 탐색 (pathfinding) 기능도 없으며, 오직 화면의 픽셀 (pixels) 정보만으로 처음부터 끝까지 플레이합니다. 시각 능력이 최첨단 (state-of-the-art)이라고 점수로 주장하는 대신, 게임 전체를 클리어함으로써 이를 직접 보여주었습니다. 또한 스크린샷만으로 웹 앱의 전체 소스 코드를 재구축하는 데모도 공개되었습니다.

Slay the Spire. 로그라이크 덱빌딩 (roguelike deckbuilder) 게임으로, 매 판이 새롭고 시도할수록 학습하게 됩니다. 여기서 흥미로운 점은 메모리 실험입니다. 모델에 지속적인 파일 기반 메모리 (file-based memory)를 부여했을 때, 성능 향상 폭은 Opus 4.8에 동일한 메모리를 제공했을 때보다 3배 더 컸습니다. 또한 게임의 최종 막(final act)에 도달하는 빈도도 3배 더 높았습니다.

이것이 왜 중요할까요? 동일한 메모리 시스템을 두 모델에 결합하더라도 모델마다 사용하는 방식이 다릅니다. 모델이 세이브 파일을 읽고 다음 판에 적용할 수 있는 지능이 없다면, 세이브 파일을 넘겨주는 것은 무의미합니다. 메모리를 활용하는 Fable의 능력은 차원이 다릅니다.

Factorio. 엔지니어들이 집착하는 공장 자동화 게임입니다. Fable은 인간의 입력 없이 스스로 전략을 세워 자동화 공장을 구축했습니다. 이 게임을 해본 사람이라면 그것이 단순히 "레벨을 클리어하는" 작업이 아니라는 것을 압니다. 그것은 **시스템 설계 (systems design)와 장기적 최적화 (long-term optimization)**의 결합입니다. 며칠 동안 지속되며 결코 떨어지지 않는 장기적 지구력 (long-horizon stamina)이 게임 내에서 그대로 나타납니다.

이뿐만이 아닙니다. 물리학의 제1원리 (physics first principles)로부터 태양계 시뮬레이션을 유도하여 일식을 예측합니다. 브라우저 기반의 CAD 에디터를 구축한 뒤, 그 안에서 3D 프린팅 가능한 모델을 설계합니다. 음악을 실제로 들어본 적이 없음에도 불구하고, 코드를 사용하여 EDM 비트에 맞춰 동기화되는 유체 시뮬레이션 (fluid simulation)을 작성합니다.

게임과 시뮬레이션은 거짓말을 하지 않습니다. 벤치마크 (benchmark)는 최소한 과적합 (overfitting)을 의심할 수 있지만, 게임을 클리어하는 것은 성공하거나 실패하거나 둘 중 하나입니다. Anthropic이 게임 데모를 전면에 내세운 이유가 바로 이것이라고 생각합니다.

실무적인 부분입니다. 다시 그 주의 사항으로 돌아가겠습니다.

Pro, Max, Team 또는 좌석 기반의 Enterprise 플랜을 사용 중이라면, 6월 9일부터 6월 22일까지 Fable 5는 추가 비용 없이 플랜 한도 내에 포함됩니다.

6월 23일부터 Anthropic은 해당 플랜에서 Fable을 제외합니다. 그 이후에는 사용량 크레딧 (usage credits)이 필요하며, API 요율($10/$50)로 청구됩니다.

6월 9일 – 6월 22일: 포함됨, 무료
6월 23일 – : 플랜에서 제외됨, 크레딧에서 차감

그 이유는 언제나 그렇듯 용량(Capacity) 때문입니다. 수요를 예측하기 어렵기 때문에, 이들은 단계적으로 보수적인 출시를 진행하고 있으며, 여유 공간(Headroom)이 확보되는 대로 Fable을 표준 플랜의 기능으로 복구하겠다고 밝혔습니다. 다만, 그 날짜는 정해지지 않았습니다.

커뮤니티의 일부는 이를 '미끼 상술(Bait-and-switch)' — 2주 동안 제공한 뒤 낚아채 가는 것이라고 부르고 있습니다. 의견은 갈립니다. 어느 쪽이든, 사용자가 취해야 할 행동은 명확합니다.

만약 시도해 볼 계획이라면, 6월 22일 이전에 하십시오.

지금까지 해결할 수 없었던 과제를 던져보세요. 며칠이 걸리는 마이그레이션(Migration), 까다로운 멀티 에이전트 워크플로우(Multi-agent workflow), 대규모 리팩터링(Refactor) 같은 것들 말입니다. Opus가 실행 도중 지쳐버리곤 했던 장기적 관점의 작업(Long-horizon work) — 바로 그것을 테스트할 수 있는 2주간의 무료 기간이 주어집니다.

마지막 참고 사항입니다. 비즈니스 트래픽에는 새로운 30일 데이터 보유 정책(Data retention policy)이 적용됩니다. Mythos급 모델은 안전 목적으로 데이터를 30일 동안 보유합니다(학습에는 사용되지 않음). 민감한 코드를 실행 중이라면 이 점을 고려하십시오.

가격은 동일하게, 엔진은 더 강력하게, 2주간 무료.
시도하지 않는 것이 진짜 손해입니다.

시각 정보만으로 Pokémon을 정복한 역대 가장 강력한 모델 — Fable 5 분석

요약

핵심 포인트

Mythos란 무엇인가 — 그들이 잠가두었던 티어

가격 — $10/$50, 비싸 보이지만 맥락이 있습니다

게임을 통해 증명됨 — 이 부분이 가장 흥미롭습니다

댓글