Claude Fable 5 현장 테스트: AI 뉴스에 반응하기 전에 검증하라

Claude Fable 5는 익숙한 헤드라인으로 만들기 쉽습니다. 즉, 가장 강력한 AI 모델이 등장했으며, 일반 사람들이 AI로 인해 더 많은 일자리를 잃게 될 것이라는 내용 말입니다.

하지만 제가 여기서 취하고자 하는 관점은 그것이 아닙니다.

발표 이후, 저는 Anthropic의 공식 출시 포스트와 모델 문서를 읽은 뒤, Claude에서 소규모의 직접 테스트(hands-on tests)를 수행했습니다. 저의 결론은 Fable 5가 중요하지 않다는 것이 아닙니다. 그렇다고 해서 맹목적으로 신뢰할 만큼 이미 충분히 신뢰할 수 있다는 것도 아닙니다.

더 유용한 교훈은 이것입니다: Fable 5는 지켜볼 가치가 있지만, 일반 사용자들에게 실제로 필요한 실무적 기술은 AI 뉴스에 반응하기 전에 이를 검증하는 능력입니다.

이 글에서는 네 가지 질문을 다룹니다:

Claude Fable 5와 Claude Mythos 5는 무엇인가?
이번 릴리스(release)에서 실제로 무엇이 바뀌었는가?
벤치마크(benchmark) 주장을 과하게 해석하지 않고 어떻게 읽어야 하는가?
일반 사용자들이 유사한 AI 뉴스를 간단한 방법으로 어떻게 검증할 수 있는가?

첫째: 이것을 완전한 "Claude 5" 릴리스라고 부르지 마세요

가장 먼저 바로잡아야 할 것은 명칭입니다.

이것은 단순히 "Claude 5가 완전히 출시되었다"는 뜻이 아닙니다.

더 정확한 설명은 다음과 같습니다:

Claude Fable 5는 일반 사용자와 개발자들이 널리 사용할 수 있는 모델입니다.
Claude Mythos 5는 Project Glasswing 및 신뢰할 수 있는 파트너들에게 연결된 초대 전용 프리뷰(preview)입니다. 모든 사용자에게 광범위하게 제공되지 않습니다.

Anthropic의 모델 문서에는 그에 상응하는 API ID인 claude-fable-5와 claude-mythos-5가 나열되어 있습니다. 또한 1M-토큰 컨텍스트 윈도우(context window)와 최대 128k 출력 토큰(output tokens)도 명시되어 있습니다.

이것이 중요한 이유는 단순히 더 매끄러운 채팅에 관한 것이 아니기 때문입니다. 모델은 더 많은 자료를 받아들일 수 있으며, 더 길고 완전한 코드, 보고서 및 분석 결과물을 생성할 수 있습니다.

하지만 긴 컨텍스트 (Long context)와 긴 출력 (Long output)이 반드시 정확성을 보장하는 것은 아닙니다. 이는 모델에게 작업할 수 있는 더 많은 여유를 제공할 뿐입니다. 결과물은 여전히 인간의 검토가 필요합니다.

진정한 변화: AI가 채팅에서 프로젝트 실행으로 이동하고 있다

AI is moving from chat toward project execution

Claude Fable 5에서 제가 발견한 가장 중요한 변화는 단순히 더 멋진 문단을 쓸 수 있다는 것이 아닙니다. 그것은 긴 작업을 지속적으로 수행할 수 있는 모델에 더 가까워졌다는 느낌을 준다는 점입니다.

공식 자료와 외부 기술 문서에서 반복되는 주제는 장기적 작업 (Long-horizon work), 엔지니어링 작업 (Engineering tasks), 복잡한 문서, 테이블 분석, 그리고 반복적인 수정 (Iterative correction)입니다.

Anthropic의 출시 자료에는 대규모 Ruby 코드베이스를 포함하는 엔지니어링 마이그레이션 사례가 포함되어 있습니다. Ethan Mollick의 현장 보고서 또한 모호한 목표를 설정하면, 조사를 수행하고, 코드를 작성하며, 테스트하고, 수정까지 할 수 있는 모델에 대해 설명합니다. 그의 중요한 주의 사항은 출력물이 여전히 불완전하며 전문가의 검토가 필요하다는 점입니다.

그렇기 때문에 저는 이번 출시를 단순히 "또 다른 챗봇 업그레이드"로 읽지 않습니다.

더 유용한 프레임워크는 다음과 같습니다:

AI는 "한 가지를 쓰는 것을 도와줘"에서 "프로젝트를 진행하는 것을 도와줘"로 이동하고 있습니다.

일반 사용자들에게 이것이 즉각적인 대체(Replacement)를 의미하지는 않습니다. 그것은 당신의 역할이 변함을 의미합니다. 도구에 한 문장씩 질문하는 대신, 목표, 제약 조건, 수락 기준 (Acceptance criteria)을 점점 더 정의해야 하며, 그 다음 작업이 실제로 정확한지 검사해야 합니다.

벤치마크는 중요하지만, 표 하나가 전부를 말해주지는 않는다

Do not read one benchmark table as the whole story

Anthropic의 벤치마크 (Benchmark) 표에 기재된 수치 중 일부는 매우 강력합니다.

예를 들어, 공식 표에는 다음과 같이 보고되어 있습니다:

SWE-Bench Pro: Fable 5 80.3%, GPT 5.5 58.6%.
FrontierCode Diamond: Fable 5 29.3%, GPT 5.5 5.7%.
Terminal-Bench 2: Fable 5 88.0%, GPT 5.5 + Codex CLI 83.4%.

이 수치들은 특히 엔지니어링 (Engineering) 및 장기적 과업 (Long-horizon tasks) 측면에서 의미 있는 신호입니다. 하지만 이를 Fable 5가 모든 상황에서 다른 모든 모델을 압도한다는 보편적인 주장으로 확대 해석해서는 안 됩니다.

벤치마크의 범위, 도구, 버전 관리, 그리고 환경이 모두 중요하기 때문입니다.

예를 들어, 독립적인 terminal-bench@2.1 리더보드 (Leaderboard)에는 Codex CLI + GPT-5.5가 83.4% +/- 2.2, Claude Code + Claude Opus 4.8이 78.9% +/- 2.5, Gemini CLI + Gemini 3.1 Pro가 70.7% +/- 2.9로 기록되어 있습니다. 해당 독립 리더보드에는 현재 Fable 5가 직접적으로 나열되어 있지 않으므로, 이를 Anthropic의 공식 표와 동일한 측정값인 것처럼 합쳐서 생각해서는 안 됩니다.

제 견해는 간단합니다. Fable 5는 특히 장기 과업, 코딩, 그리고 복잡한 정보 작업에서 매우 강력해 보입니다. 하지만 벤치마크 스크린샷을 중심으로 AI 뉴스가 만들어질 때마다, 저는 다음 세 가지 질문을 던지고 싶습니다.

이것은 제조사(Vendor)의 자료인가, 제3자의 자료인가, 아니면 사용자 테스트 결과인가?
비교 대상인 시스템들이 동일한 조건 하에서 실행되었는가?
이 벤치마크가 내가 실제로 수행해야 하는 작업과 일치하는가?

나의 현장 테스트: 강력하지만, 초기 사용 단계에서는 여전히 불균형할 수 있음

나는 벤치마크 (Benchmark) 표에서 멈추고 싶지 않았기에, 몇 가지 작은 테스트를 실행했습니다.

첫째로, 기본적인 가용성 (Availability)을 확인했습니다. Fable 5를 선택한 상태에서 다른 작업을 보냈으나, Model isn't available이라는 메시지를 받았습니다. 이는 새로운 모델이 막 출시되었을 때 일반 사용자들이 겪을 수 있는 실질적인 문제입니다.

둘째로, 중국어 작업을 계속 진행했습니다. 어느 시점에서 모델이 중국어 대신 일본어 콘텐츠를 반환했습니다. 그래서 나는 더 엄격한 지침을 추가했습니다: 간체 중국어 (Simplified Chinese)만 사용하고, 각 문장을 짧게 유지할 것. 그 후, 한 문장 요약, 영상 오프닝, 그리고 제목 옵션을 요청했습니다. 이 세 가지 후속 작업은 다시 중국어로 반환되었습니다.

Fable 5 Japanese output issue screenshot

이 두 가지 관찰 결과가 Fable 5가 약하다는 것을 의미하지는 않습니다. 더 비례적인 결론은 초기 사용 단계에서는 결과가 불균형할 수 있다는 것입니다. 단 한 번의 성공이나 실패가 전체적인 판결이 되어서는 안 됩니다.

셋째로, 공식 벤치마크 (Benchmark) 표를 업로드하고 모델에게 일반 시청자를 위한 30초 분량의 중국어 음성 내레이션 (Voiceover)으로 변환해 달라고 요청했습니다. 또한 어떤 결론을 과도하게 해석해서는 안 되는지도 표시해 달라고 요청했습니다. 이 작업은 상당히 잘 작동했습니다. 모델은 주요 지점들을 추출해냈고, 서로 다른 리더보드 (Leaderboard)를 너무 가볍게 비교해서는 안 된다고 경고했습니다.

넷째, 저는 비디오 주제, 스크린샷, 그리고 리스크 제약 조건(risk constraints)을 제공했습니다. 이는 실제 워크플로우(workflow) 테스트에 더 가까웠습니다. 모델은 구조를 생성하고, 검증해야 할 사실들을 나열했으며, 과장될 수 있는 주장들을 분리해냈습니다.

이 지점에서 Fable 5는 단순한 채팅 모델이라기보다 작업 보조자(working assistant)에 더 가깝게 느껴지기 시작했습니다. 복잡한 작업을 구조, 사실, 리스크, 그리고 다음 단계로 분리할 수 있었습니다.

하지만 이것이 자동화된 정확성(automatic correctness)과 동일한 것은 아닙니다. 구조는 검토가 필요합니다. 사실은 확인이 필요합니다. 최종 출력물은 여전히 실제 시나리오에 부합해야 합니다.

또 다른 문제: 모델의 제한 사항은 사용자에게 보여야 합니다

이번 출시와 관련하여 중요한 정책 논란도 있었습니다.

Simon Willison은 일부 프런티어 모델(frontier model) 개발 요청과 관련된 제한 메커니즘이 사용자에게 항상 가시적이지는 않았다는 점에 대해 글을 썼습니다. 이후 Engadget는 연구 커뮤니티의 반발 이후 Anthropic이 정책을 조정하여, 이러한 안전장치(safeguards)를 가시화하는 방향으로 움직이고 있다고 보도했습니다.