
Claude Fable 5 - 319페이지 전체 분석
요약
Anthropic의 Claude Fable 5 모델 출시와 319페이지에 달하는 시스템 카드를 심층 분석합니다. 모델의 성능 향상, 강화된 안전 장치로 인한 차단 문제, 그리고 향후 출시될 차세대 모델에 대한 전망을 다룹니다.
핵심 포인트
- Claude Fable 5는 양적·질적으로 AI 역량의 중요한 진전을 보여줌
- 강화된 안전 장치로 인해 생물학적 질문 등 특정 요청이 차단될 수 있음
- Fable 5와 Mythos 5는 동일한 가중치를 공유하며 안전 장치 적용 여부만 다름
- Anthropic은 현재 차세대 모델을 개발 중인 것으로 추정됨
비디오: Claude Fable 5 - 319페이지 전체 분석
채널: AI Explained
길이: 33분 59초
출처: 자막 (자동 생성, 영어)
스크립트:
Anthropic은 적어도 그들의 릴리스 노트 (release notes) 길이에 있어서는 확실히 기하급수적인 성장을 보여주고 있습니다. 정말 저를 죽이려는 것 같군요. 319페이지라니 말이죠. 하지만 더 진지하게 말하자면, 물론 Claude Fable 5는 양적으로나 질적으로나 AI 역량에 있어 중요한 진전입니다. 네, 그들의 시스템 카드 (system card)가 길긴 하지만, 9시간 동안 읽고 난 후, 소셜 미디어에서 모두가 패닉에 빠져 있는 동안 여러분이 놓쳤을 법한 20가지 정도의 주요 하이라이트를 전달해 드리겠습니다. 저는 아마도 약 100가지의 서로 다른 방식으로 모델을 테스트했을 것이며, Anthropic이 여러분이 보길 원하는 유명한 벤치마크 (benchmarks)뿐만 아니라 조용한 독립적 벤치마크, 그리고 물론 저만의 개인적인 벤치마크 전반에 걸쳐 결과를 샅샅이 조사했습니다. 시작하기 전에, 요약 (TL;DR)하자면 무엇일까요? 음, 네, 좋은 모델입니다. 물론 차단당하지 않는다면 말이죠. 하지만 와, 정말 좋습니다. 모델 출시를 보고 이렇게 약간 불안함을 느낀 게 참 오랜만입니다. 그 점은 확실히 말할 가치가 있습니다. 어쨌든, 그 차단(blocks) 문제부터 시작해 봅시다. 왜냐하면 Fable 5를 사용할 때 가장 먼저 눈치채게 될 첫 번째 사항 중 하나일 수 있기 때문입니다. 적어도 6월 22일에 구독 서비스에서 제외될 때까지는 말이죠. Pro든 Max든 상관없이 사용할 수 없게 될 것입니다. 그들은 가난한 사용자들을 보조하는 것에 지쳤습니다. 그들은 우리 모두가 사용 크레딧 (usage credits)을 사용하고, 이 거대한 모델의 실제 비용을 지불하기를 원합니다. Fable 5가 출시된 지 1분 후, 저는 막 Opus 4.8과 장내 미생물을 위한 더 많은 발효 식품을 얻는 방법에 대해 대화를 나누던 중이었습니다. 예를 들어 사워크라우트(sauerkraut)나 김치가 얼마나 유용할지 깨닫지 못하고 있었죠. 그래서 모델을 전환한 후 Fable 5에게 '이 채팅을 검토(review)해서 추가 추천을 해줘'라고 요청했습니다. 네, 제가 'review'의 철자를 틀렸다는 건 알고 있습니다. 이것이 생물학 요청 (biology request)으로 분류되었습니다. 그래서 채팅이 일시 중단되었습니다.
그리고 덧붙이자면, 만약 그것이 지나치게 강압적이라고 생각하신다면, 시스템 카드 (system card)를 자세히 살펴볼 때까지 기다려 보세요. 상황은 정말이지 상당히 거칠어지며, 저는 그런 최상급 표현을 자주 사용하는 편이 아닙니다. 실습 부분을 마치기 전에, 충분한 컴퓨팅 용량 (compute capacity)이 확보되어 Anthropic이 허용하게 된다면, 언젠가 Fable 5를 Pro, Max 또는 Team과 같은 구독 서비스로 다시 돌려놓을 수도 있습니다. 둘째로, Claude Fable 5의 중요성을 철학적으로 소화하는 과정이 아직 끝나지 않았더라도, 앞으로 몇 달 안에 더 유능한 모델들이 도착할 것이니 안심하십시오. 시스템 카드와 다양한 인터뷰의 행간을 읽어보면, Fable 또는 Mythos는 2월쯤 훈련 (training)을 마친 것으로 보입니다. 그리고 물론, AI 분야에서 4개월은 긴 시간이기 때문에, Anthropic 연구원들이 현재는 차세대 (nextG) 모델을 사용하고 있을 가능성도 충분합니다. 참고로, 이름 때문에 조금 혼란스러우셨을 수도 있는데, Mythos 5와 Fable 5는 동일한 기반 모델 가중치 (model weights)를 가집니다. 단지 Fable 5에 더 많은 안전 장치 (safeguards)가 적용되어 있을 뿐입니다. 다만, 제가 이전 영상에서 예측했듯이, Mythos 5 또는 Fable 5는 Mythos preview보다 개선된 버전이라는 점에 주목하십시오. 안전 장치를 제외하더라도, 우리가 현재 접하고 있는 Fable 5 모델은 지난 4월 많은 이들을 공포에 빠뜨렸던 Mythos preview 모델보다 개선된 모델입니다. 비록 50페이지에서 언급된 것처럼, 일반적으로 말해서 그 개선 정도는 완만합니다. 하지만 혼동하지 마십시오. 안전 장치가 적용된 Mythos 5 또는 Fable 5가 Mythos preview에 비해 완만한 개선일 뿐이라고 해서, 그것이 Opus 4.8에 비해 유의미한 개선이 아니라는 뜻은 아닙니다. 그리고 네, GPT 5.5 및 Gemini 3.1 Pro에 대해서도 마찬가지입니다. 안전 장치를 너머를 볼 수 있다면, 이것은 분명히 현존하는 최고의 모델입니다. 물론 제가 나중에 다루겠지만, 일부 영역에는 약간의 미묘한 차이 (nuances)가 있습니다. 믿어주세요, 만약 제가 이 영상을 아주 짧게 요약 (TLDR)하려고 시도한다면, 그 TLDR조차 약 5분 정도는 걸릴 것입니다. 하지만 세부 사항으로 더 깊이 들어가기 전에, 여러분이 이 모델의 위력을 본능적으로 느낄 수 있게 해드리고 싶습니다. 저는 단 하나의 프롬프트로 "포켓몬 (Pokémon) 클론을 만들어줘, 하지만 Red Wall 세계관을 배경으로 해줘"라고 요청했습니다. 그리고 이것이 무엇을 만들어냈는지 확인해 보십시오.
사운드트랙이 있어서 소리는 끄고 있지만, 수십 개의 플레이 가능한 레벨과 캐릭터들과 나눌 수 있는 상호작용이 포함되어 있습니다. 물론 메뉴와 플레이 가능한 캐릭터, 그리고 모험에 데려갈 수 있는 동료들도 있습니다. 프롬프트를 작성하는 데는 2분이 걸렸지만, 게임 플레이 시간은 대략 한 시간 정도 된다고 말할 수 있습니다. 여러분도 함께 플레이해 보고 싶다면 온라인에 게시해 두었습니다. 모델은 힘든 작업을 즐기는 것 같으며, 이에 대해서는 나중에 더 자세히 다루겠습니다. Ethan Molik이 제안한 등시성 통로 차트(isochronic passage chart)라는 인상적인 아이디어를 보십시오. 기본적으로 세계 지도상의 아무 곳이나 클릭하면 뉴욕시의 실제 데이터를 기반으로 그곳에 도달하는 데 현실적으로 얼마나 걸릴지 확인할 수 있습니다. 모델이 수행할 수 시간, 시간, 시간 단위의 에이전트적 연구 (agentic research)가 필요하겠지만, 비록 그것을 완벽하게 신뢰할 수는 없을지라도 말입니다. 하지만 이런 생생하고 인상적인 사례들을 살펴보는 데 영상 전체를 다 써버릴 수도 있습니다. 하지만 그러면 너무 재미있어질 것입니다. 왜냐하면 이 319페이지 분량의 시스템 카드 (system card)에는 이와 같은 폭탄 발언들이 수십 개나 포함되어 있기 때문입니다. 예를 들어, 그들이 생물학 관련 요청에 대해 Claude를 차단하는 방식은 알고 계실 겁니다. 그렇다면 머신러닝 (machine learning) 연구를 위해 사용하는 경우는 어떨까요? 아마도 OpenAI나 DeepSeek 같은 경쟁사로서, 예를 들어 사전 학습 파이프라인 (pre-training pipelines) 구축과 같은 최첨단 LLM 개발을 위해 Fable 5를 사용하고 싶다면 어떨까요? Anthropic은 보이지 않는 안전장치 (safeguards)를 도입했습니다. 스티어링 벡터 (steering vectors)나 프롬프트 수정 (prompt modification)과 같은 것들로, 모델이 효과적인 답변을 내놓지 못하도록 조용히 유도합니다. 이러한 시도들을 방해한다고 말할 수 있겠죠. 다시 말씀드리지만, 이러한 안전장치들은 사용자에게 보이지 않습니다. 물론 여러분 대부분은 머신러닝을 가속화하기 위해 Fable 5를 사용하지는 않겠지만, 그럼에도 불구하고 익명의 한 저명한 OpenAI 연구원은 이것이 사실상 Anthropic의 적대자들에 대한 스턴 락 (stun lock)이라고 말했습니다. 이것은 정말로 최종 단계의 전략입니다. 이는 그들의 선두를 유지하기 위한 참조입니다. Anthropic은 OpenAI가 그러한 능력을 갖추는 것을 방지하고 있습니다. 이는 아마도 시스템 카드의 가장 뻔뻔한 부분으로 자연스럽게 우리를 안내합니다.
그리고 제가 지나치게 자기중심적(solipsistic)으로 생각하는 것이라면, 이 문구 중 하나는 저를 직접 겨냥한 것이라고 말하고 싶습니다. 왜냐하면 저는 Anthropic이 AI 능력의 발전 속도를 높이고 싶지 않다고 말해왔던 방식을 자주 인용해 왔기 때문입니다. 이 채널을 시청해 오셨다면 제가 여러 번 인용했다는 것을 아실 겁니다. 그것은 2023년의 인용구였습니다. 그런데 여기서 그들은 다음과 같이 말합니다. '네, 우리는 전반적인 AI 개발 속도가 가속화되는 위험에 대해 우려하고 있습니다. 하지만 우리가 의미했던 것은, 우리의 특별한 우려는 다른 AI 개발자들, 즉 유사한 위험을 초래하면서도 그에 상응하는 안전장치(safeguards)를 갖추지 못한 이들의 가속화를 우려한다는 것입니다.' 냉소적으로 읽어보자면, 이는 2023년의 'AI 능력의 발전 속도를 높이고 싶지 않다'는 입장에서 2026년의 '다른 사람들의 AI 능력 발전 속도를 높이고 싶지 않다'로 직접적인 교체가 이루어진 것입니다. 그들은 일종의 방어 기제를 작동시키며 '글쎄요, 우리는 2026년 2월 위험 보고서(risk report)에서 그러한 변화를 설명했습니다'라고 말합니다. 하지만 그 위험 보고서 87페이지를 깊이 파고들어 보면, 그들은 상업적 생존 가능성(commercial viability)을 입증함으로써 이러한 가속화 역학의 상당 부분을 자신들이 유발하고 있음을 인정하고 있습니다. 이는 더 많은 투자와 더 많은 컴퓨팅 자원(compute)으로 이어지며, 결과적으로 AI 능력의 더 큰 가속화를 초래합니다. 저는 그들이 조금 더 직설적이고 정직했으면 좋겠습니다. '우리는 모델을 연구하는 방법이 그것뿐이었기에 모델만을 만드는 안전 연구소(safety lab)로 시작했습니다. 하지만 ChatGPT가 폭발적으로 성장하는 것을 보았을 때, 우리도 그 게임에 참여할 수 있다고 생각했습니다. 하지만 아마도 우리가 모델을 사용하여 인간의 수명을 두 배로 늘릴 수 있을지도 모르기 때문에, 그 어떤 안전 문제도 감수할 가치가 있을 것입니다.' 다만 많은 시청자가 너무 걱정하기 전에 말씀드리자면, 우리는 어떤 종류의 재귀적 자기 개선(recursive self-improvement)에도 근접해 있지 않습니다. 예를 들어 Anthropic에 따르면, Mythos 5 또는 Fable 5는 그들의 연구 과학자들을 대체할 수 있는 수준에는 근접하지 않은 것으로 보입니다. 그들이 이를 판단하는 방법 중 하나는, AI의 발전에 있어 AI에 의해 기인한 지속적인 2배 가속화(two times acceleration)를 관찰하지 못했다는 점입니다. 이것을 계단 꼭대기로 향하는 엘리베이터가 아니라, 단계적인 변화(step change)로 다시 한번 생각해 보십시오.
이제, 저는 이 보고서가 Fable 5의 생물학적 능력 (biological capabilities)에 이토록 강렬하게 집중하며 시작되었다는 점에 상당히 놀랐습니다. 하지만 도입부를 읽어 내려갈수록 그 이유가 이해가 가며, 여기에는 세 가지 흥미로운 이유가 있다고 생각합니다.
첫째, 여기 전 OpenAI 안전 연구원 (safety researcher)이 주석을 달아놓은 첫 번째 단락이 있습니다. Anthropic은 "화학 및 생물학적 위험 (chemical and biological risks)에 대해, 우리는 이 모델이 CB-1 능력을 갖춘 것으로 간주합니다"라고 말합니다. 별것 아닌 것처럼 들릴 수도 있습니다. 이는 기본적인 기술적 배경을 가진 개인이 재앙적인 피해를 초래할 심각한 잠재력을 가진 화학 또는 생물학 무기를 제조하고 배치하는 데 상당한 도움을 줄 수 있음을 의미합니다. 무섭지만, '도움(help)'이라는 단어에 주목하십시오. 모델이 처음부터 끝까지(end to end) 스스로 해낼 수는 없다는 뜻입니다. Anthropic은 이어 다음과 같이 말합니다. "하지만 우리는 Fable 5가 CB-2의 임계값(threshold)을 넘지는 않는다고 판단합니다." 즉, 이 모델은 적절한 자원을 갖추고 전문가의 지원을 받는 팀이 과거의 재앙을 훨씬 뛰어넘는 재앙적 피해를 초래할 수 있는 화학 또는 생물학 무기를 제조하고 배치하는 데 상당한 도움을 줄 수는 없다는 의미입니다.
하지만 결정적으로, 이는 이전 모델들에 비해 훨씬 불분명한 판단입니다. 다시 말해, 안전 장치(safeguards)가 없다면 적절한 자원을 갖추고 전문가의 지원을 받는 팀에게도 상당한 도움을 줄 수 있다고 주장할 여지가 있다는 것입니다. 여러분 중 많은 분이 이것이 출시 전의 과장(pre-IPO hype)이라고 생각하고 있다는 것을 저도 압니다. 하지만 이는 그들 자신의 제품에 대한 상당히 솔직한 인정입니다. 우리는 안전 장치가 없는 Mythos 5가 충분한 자원을 가진 위협 행위자(threat actors)를 상당히 고도화할 수 있다고 생각합니다.
이것이 저를 두 번째 포인트로 이끕니다. 왜냐하면 지난 몇 년 동안 여러분은 아마도 트랜스포머 (transformers)와 거대언어모델 (LLMs)이 코딩이나 수학 내의 패턴 및 메타 패턴을 찾는 데 유독 뛰어나지만, 그것이 현실 세계나 다른 과학 분야로 일반화되지는 않을 것이라는 입장을 취했을 수도 있기 때문입니다. 음, 이제 결과가 나왔다고 말할 수 있을 것 같습니다. 트랜스포머는 해당 분야에서도 똑같이 잘 패턴을 찾아낼 수 있습니다. Anthropic은 테스터들을 두 팀으로 나누었습니다. 그들은 Mythos 5와 함께 6명의 박사급 생물학자들을 투입했습니다. 결코 초보자가 아닌, 박사급 생물학자들 말입니다.
그리고 그들의 과제는 식물 생물학 (plant biology)의 최전선에서 포괄적인 과학적 프로토콜 (scientific protocols)을 개발하는 것이었습니다. 다시 말해, 이 가상의 공학적 농업 병원균 (engineered agricultural pathogen)에 맞서 엔드 투 엔드 (end-to-end) 생물학적 저항 전략을 설계하는 것이었습니다. HTML을 마스터하는 것과는 전혀 다른 차원의 일이죠. 여러분도 동의하실 겁니다. Mythos를 사용하는 테스터들은 벼 도열병 (rice blast) 저항성 분야의 세계적인 전문가 2명과 제가 발음조차 할 수 없는 또 다른 분야의 전문가들이 포함된 팀들과 맞붙었습니다. 세계적인 전문가들을 상대할 때 기초 생물학자들이 실력을 끌어올릴 방법은 분명히 없을 것입니다. 음, 아니요, 가능했습니다. 세 개의 일반 생물학자 (generalist biologist) 팀 중 두 팀이 품질과 실행 가능성 (feasibility) 모두에서 세 개의 전문가 팀을 모두 앞질렀으며, 이는 Mythos 5에 대한 접근성이 전문가 지식의 차이를 무효화했음을 시사합니다. 일반 생물학자 팀은 보통 몇 달이 걸렸을 일을 16시간 만에 해냈습니다. 다시 말해, Mythos 5가 상당한 수준으로 [도울 수 있다는] 증거가 있다는 것입니다.
하지만, 그리고 이것은 제가 이 영상 내내 다시 다루게 될 패러다임인데, Mythos는 도움을 줄 수 있고, 점검할 수 있으며, 속도를 높여줄 수는 있습니다. 그것은 스스로 엔드 투 엔드로 자율적으로 수행하는 것과는 매우 다릅니다. 그대로 내버려 두면, Mythos 5 또는 Fable 5는 과잉 설계 (over engineers)를 하여, 작동 가능성이 더 높은 단순한 접근 방식보다 복잡한 설계를 선호합니다. 또한 검토자들이 반복적으로 수정하거나 철회하도록 강요하게 만드는 낙관적인 초기 계획을 제시합니다. 더 나쁜 것은, 확인하지 않을 경우 치명적일 수 있는 명백한 오류를 가끔 저지른다는 점입니다. 역사의 모든 거대언어모델 (LLM)이 그랬듯이, 이 모델 또한 인용 문구와 데이터를 환각 (hallucinates) 합니다. 이는 Anthropic이 Fable 5에 대해 발표한 화려한 릴리스 노트 (release notes)에도 동일하게 적용해야 할 주의 사항입니다. 표지에는 다음과 같이 적혀 있었습니다: '신약 설계 (drug design). Mythos 5를 사용하여, 당사의 내부 단백질 설계 (protein design) 전문가들은 신약 설계 프로세스의 측면들을 약 10배 정도 가속화했습니다. 이 모델은 때때로 이 분야의 과학자가 통상적으로 완료하는 모든 작업, 즉 결합 부위 (binding sites) 선택, 단백질 설계 도구의 선택 및 실행, 그리고 실패로부터의 복구까지 수행할 수 있습니다.'
Mythos는 우리가 현재 조사 중인 약물 설계 (drug design)를 위한 강력한 후보군까지 찾아냈습니다. 우리는 이 파이프라인의 한 부분이 가속화된 것에 대해 모두 기쁘게 생각합니다. 정말 멋진 일이지만, Anthropic이 전체 프로세스가 얼마나 복잡할지에 대해 조금 더 명확하게 설명해 주었더라면 좋았을 것 같습니다. 왜냐하면 mythosclass 모델들이 신약 개발 (drug discovery) 프로세스의 계산적 측면 (computational slice)을 가속화할 수 있다고 하더라도, 그것이 하류 병목 현상 (downstream bottlenecks)을 제거하는 것은 아니며, 단지 병목 지점을 이동시킬 뿐이기 때문입니다. 다른 곳에서도 지적되었듯이, 여기에는 효능 (potency), 제조 가능성 (manufacturability), 안정성 (stability), 독성 (toxicity)에 대한 물리적 테스트와 다양한 단계의 임상 시험 (clinical trials)이라는 관문이 포함됩니다. 물론, Recursion과 같이 프로세스의 습식 실험 (wet lab) 부분까지 자동화하려는 AI 기업들도 있습니다. 다만 제가 말씀드리고 싶은 것은, mythos 5가 과학을 자동화하는 단계에 완전히 진입했다고 오해하지 않으셨으면 한다는 점입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 YouTube AI Explained (AI 뉴스)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기