본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 15. 04:37

Midnight AI Groove

요약

Anthropic이 새로운 모델 패밀리인 Claude Fable 5와 Claude Mythos 5를 출시했습니다. 두 모델은 동일한 기반을 공유하지만, Fable 5는 안전 가드가 적용된 일반 제공 버전이며 특정 위험 영역 질문 시 Opus 4.8로 라우팅되는 메커니즘을 갖추고 있습니다.

핵심 포인트

  • Claude Fable 5와 Mythos 5는 동일 기반의 강력한 모델
  • Fable 5는 안전 가드 적용 및 위험 프롬프트 시 Opus 4.8로 라우팅
  • 100만 토큰의 방대한 컨텍스트 윈도우 지원
  • 입력 100만 토큰당 $10, 출력 100만 토큰당 $50의 요금 체계
  • Python, TypeScript, Go, Java, C# SDK 미들웨어 지원

DJ 미오 (여)

안녕하세요, 「Midnight AI Groove」입니다. 내비게이터 DJ 미오입니다.

DJ 렌 (남)

그리고 파트너 DJ 렌입니다. 오늘 밤은 AI 업계를 상당히 술렁이게 만든 화제, Anthropic의 Claude Fable 5와 Claude Mythos 5에 대해 최대한 정리해서 전해드리겠습니다.

DJ 미오

이번 이야기는 단순한 "신모델이 나왔습니다"로 끝나지 않더라고요.

성능 점프, 가격, 방대한 컨텍스트 (Context), 운용의 변화, 그리고 안전 대책을 둘러싼 대논쟁까지, 논점이 한꺼번에 몰려오고 있어요.

DJ 렌

맞아요. 게다가 중요한 것은 사람들이 떠들썩하게 만드는 포인트가 두 가지라는 점입니다.

첫 번째는, Fable 5 / Mythos 5가 상당히 강력하다는 것.

두 번째는, 그 강력한 모델에 대한 액세스(Access)가 보이지 않는 형태로 제어되고 있는 것이 아닌가 하는 우려입니다.

DJ 미오

먼저 사실관계부터 짚어보죠. Anthropic은 새로운 모델 패밀리로서,

Claude Fable 5-
Claude Mythos 5

두 계통을 출시했습니다.

DJ 렌

여기서 포지셔닝이 중요합니다.

Fable 5는 일반 제공 버전, 즉 널리 사용할 수 있는 쪽입니다.

반면 Mythos 5는 제한적 액세스 (Restricted Access). 누구나 자유롭게 접할 수 있는 것은 아닙니다.

DJ 미오

Anthropic 자체 설명에 따르면, **Fable 5는 "Mythos급 모델로서 처음으로 일반 제공되는 것"**이라고 합니다. 게다가 지금까지 널리 공개해 온 그 어떤 모델보다 강력하며, 테스트한 거의 모든 벤치마크(Benchmark)에서 최첨단이라고 주장하고 있어요.

DJ 렌

더욱 중요한 점은, **Fable 5와 Mythos 5는 근본적으로 동일한 기반 모델 (Foundation Model)**이라는 점입니다.

다만 Fable 5에는 **추가적인 안전 가드 (Safety Guard)**가 들어가 있습니다.

DJ 미오

그 결과, 특정 위험 영역, 예를 들어

  • 사이버
  • 바이오
  • 화학
  • 증류 (Distillation) 관련

같은 프롬프트(Prompt)에서는 Claude Opus 4.8로 라우팅 (Routing)될 수 있다고 설명되어 있습니다.

DJ 렌

Anthropic 측은 "잠재적으로 유해한 매우 좁은 범위의 질문"에 대해 투명하게 폴백 (Fallback)한다고 하며, 초기 설명에서는 95% 이상의 세션에서는 발생하지 않을 것이라고도 말했었죠.

DJ 미오

구현 측면에서는 서버 측뿐만 아니라, **SDK 미들웨어 (Middleware)**에서도 그 메커니즘을 사용할 수 있습니다. 대응 언어는 **Python, TypeScript, Go, Java, C#**입니다.

DJ 렌

요금도 명확하게 나와 있습니다.

Fable 5와 Mythos 5는 모두 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러입니다.

DJ 미오

게다가 제3자 평가를 통해 나온 캐시 (Cache) 요금으로서,

캐시 쓰기 100만 토큰당 12.50달러-
캐시 읽기 100만 토큰당 1달러

라고도 보고되었습니다.

DJ 렌

그리고 Fable 5는 Anthropic의 장점이기도 한 **100만 토큰의 컨텍스트 윈도우 (Context Window)**를 유지하고 있다고 합니다.

DJ 미오

제공 플랜도 다소 복잡했습니다.

Pro, Max, Team, seat-based Enterprise로 구성되며, 6월 22일까지는 일시적으로 포함됩니다. 하지만 그 이후에는 용량 제약으로 인해 크레딧 소비형으로 이행된다고 안내되었습니다.

DJ 렌

이 부분은 꽤 혼란이 있었죠. "6월 22일까지 포함된다는 게 무슨 의미냐?"라고 말이죠. Anthropic 스태프가 나중에 설명했습니다.

DJ 미오

게다가 수요가 너무 강해서, 나중에 5시간 제한이나 주간 레이트 제한 (Rate Limit)을 리셋하는 움직임도 있었습니다. 즉, 출시 직후부터 상당히 붐볐다는 뜻이죠.

DJ 렌

여기서부터가 "대단하다"라고 불리는 이유입니다. Anthropic도 주변 기업들도, 특히 코딩이나 장시간의 에이전트 (Agent) 작업에서 우위에 있다고 어필하고 있습니다.

DJ 미오

Anthropic 자체는, **소프트웨어 공학, 지식 노동, 과학 연구, 비전 (Vision)**에 강하며, 태스크 (Task)가 길고 복잡해질수록 우위가 넓어진다고 하고 있습니다.

DJ 렌

서드파티 (Third-party) 수치도 많이 나왔습니다. 예를 들어:

  • CursorBench에서 72.9%, 이전 최고 기록보다 8포인트 상승
  • Cognition의 FrontierCode에서 1위
  • Terminal-Bench 2.1에서 88.0%, GPT-5.5를 4.6포인트 상회
  • Artificial Analysis의 Intelligence Index에서 64.9로 1위. 게다가 GPT-5.5보다 약 5포인트 높음

DJ 미오

Artificial Analysis는 추가로,

GDPval-AA Elo 1932, 실세계 지식 노동 에이전트(Agent)에서 1위
Humanity’s Last Exam에서 53%, 차점자보다 7포인트 이상 높음

이라고도 보고하고 있어.

DJ 렌

하지만 여기서 중요한 점은, Humanity’s Last Exam에서는 9%의 태스크(Task)에서 폴백(Fallback)이 발생했다는 점이야.

Intelligence Index 계열 태스크에서도 약 8%가 폴백이었으며, 주로 과학 계열 질문이었다는 보고가 있어.

DJ 미오

Anthropic의 주장은 "평균하면 폴백은 5% 미만의 세션"이지만, 벤치마크에 따라서는 무시할 수 없는 비율이 될 가능성이 있다는 거네.

DJ 렌

커뮤니티에서 화제가 된 비교도 강렬했어.

SWE-Bench Pro: Fable 5가 80.3%, GPT-5.5가 58.6%
FrontierCode Diamond: Mythos 5가 30.9%, 2위가 13.4%

DJ 미오

그리고 Artificial Analysis는 Fable 5의 지식 계열 벤치마크 상승 폭을 보고, 기존의 공개된 Anthropic 모델보다 더 큰 모델일지도 모른다고 추측했어.

다만 이는 추측일 뿐 공식 스펙은 아니야.

DJ 미오

이번 출시의 흥미로운 점은 단순히 점수가 높다는 것만이 아니야. 워크플로(Workflow) 그 자체를 바꾸는 모델로 이야기되고 있다는 점이지.

DJ 렌

맞아. "태스크를 주는 모델"에서, 목적과 책임을 맡기는 모델로, 라는 표현이 여러 번 등장했어.

DJ 미오

Anthropic 관계자나 초기 사용자들은 Fable 5를 매우 길고, 높은 노력이 필요한 작업용이라고 설명하고 있어.

설정 측면에서도 xhigh / high effort를 기본으로 할 것, 기존의 CLAUDE.md 지시사항을 새로 작성할 것, 그리고 모델에게 더 많은 판단을 맡길 것이라는 이야기가 있었지.

DJ 렌

즉, 일일이 세세하게 명령하기보다 목표를 전달하여 자율성을 활용하는 방식이 권장되고 있어.

게다가 Anthropic의 개발자용 설명에서는 **멀티 에이전트 오케스트레이션 (Multi-agent Orchestration)**이 강조되었는데, Fable이 Claude Managed Agents 내에서 **작은 모델로 위임 (Delegation)**하는 구성도 밀고 있었어.

DJ 미오

다만, 그만큼 비용은 무거워. 초기 사용자들의 인상은 상당히 일관적이야.

느리고, 토큰을 대량으로 소비하며, 비싸지만, 비정상적일 정도로 유능하다고.

DJ 렌

Dan Shipper는 한 번의 작업에 50만~100만 토큰을 쓰는 경우도 있다고 했고, Simon Willison은 솔직하게 **“slow, expensive and capable”**이라고 표현했지.

DJ 미오

Theo는 금방 제한에 도달해서, 그 이후의 레이트 리밋 (Rate Limit) 리셋을 반겼었지.

DJ 렌

일화 중심이긴 하지만, 상징적인 이야기도 많았어.

Ethan Mollick은 15페이지 분량의 설계 문서를 전달하여 9시간 이상 일하게 할 수 있다는 취지의 이야기를 하고 있어.

DJ 미오

Stripe의 사례로는, Anthropic의 주장을 인용하여 5,000만 행의 Ruby 마이그레이션을 하루 만에 처리하여, 이전 같으면 팀 전체가 2개월 이상 걸렸을 업무를 대체했다는 이야기가 퍼졌어.

DJ 렌

Victor Taelin은 미묘한 버그를 찾아냈다거나, 어떤 케이스에서 1770%의 가속화를 달성했다고 보고했어.

다만 본인도 정확성에 대한 감사 (Audit)는 필요하다고 했었지.

DJ 미오

나아가 Anthropic 측에 가까운 게시물에서는,

430배의 커널 가속화
69배의 자기 학습 가속화
10배의 신약 개발 가속화

같은 숫자들도 인용되었지만, 이는 벤더 측의 주장이나 시스템 카드 (System Card) 해석에 기반한 것이며, 독립적으로 재현될 때까지 신중하게 다루어야 한다.

DJ 렌

전개 속도도 엄청났다. Fable 5는 곧바로,

Cursor, Devin, Notion, Microsoft Foundry, GitHub Copilot App/CLI, Cline, Replit, Base44, MagicPath, Arena, MCP Atlas 등에서 등장했다.

DJ 미오

즉, 단독 모델로서 나왔다기보다, 개발 도구 및 워크플로우 전체에 단숨에 통합되기 시작했다. 이 점은 상당히 중요하다.

DJ 미오

여기서부터가 이번의 가장 큰 논점이다.

사람들이 논의한 것은 "강한가 아닌가"보다, 오히려 Anthropic이 일부 프론티어 AI (Frontier AI) 개발 태스크에서, 모델의 유용성을 보이지 않는 방식으로 낮추는 설계를 넣었다는 점이다.

DJ 렌

시스템 카드에서 유래한 설명으로 확산된 내용은, Fable 5가 프론티어 LLM (Large Language Model) 개발에 사용될 경우, Anthropic은 프롬프트 개변 (Prompt Modification), 스티어링 벡터 (Steering Vector), PEFT (Parameter-Efficient Fine-Tuning) 등을 통해 성능을 제한할 수 있다는 것이며, 심지어 사용자에게 통지하지 않는다는 것이다. 영향 범위는 약 0.03%의 트래픽으로 추산하고 있다.

DJ 미오

여기서 구분이 필요하다.

하나는 사이버나 바이오 위험 문의를 Opus 4.8로 폴백 (Fallback)하는 메커니즘이다. 이것은 비교적 눈에 보인다.

하지만 또 하나, 프론티어 LLM 개발 관련해서는, 거부나 라우팅이 아니라 몰래 약화시킬 가능성이 있다. 이 점이 특히 문제시되었다.

DJ 렌

비판은 상당히 엄격했다.

"유료 제품에서 사이런트 핸디캡 (Silent Handicap)은 있을 수 없다"

"ML (Machine Learning) 연구 성능을 고지 없이 떨어뜨리는 것은 적대적이다"

"안전 개입은 가시화·감사 가능·귀속 가능해야 한다"

와 같은 반응들이 이어졌다.

DJ 미오

그리고 근본적인 불신도 생긴다.

만약 결과가 나빴을 때,

  • 모델이 정말로 실패한 것인가
  • 자신의 프롬프트가 잘못된 것인가
  • 숨겨진 개입이 들어갔는가

를 알 수 없다.

이것이 "신뢰의 파탄"이라고 불렸다.

DJ 렌

일부 연구자나 오픈 모델 지지자들은, 이를 안전 대책이라기보다 경쟁 상대의 사다리를 치우는 행위로 보았다.

DJ 미오

예를 들어,

“labs are pulling up the ladders” (연구소들이 사다리를 치우고 있다)
“오픈 소스 AI를 보호하고 육성하기 위한 최대의 경종”
“AI 연구를 멈추라는 것이 아니라, 너의 AI 연구를 멈추라는 의미였다”

와 같은 강한 표현들이 나왔다.

DJ 렌

나아가, AI에서의 힘·능력·경제적 가치의 집중이야말로 최대의 리스크라는 주장으로도 이어졌다.

즉, 이것은 단순한 제품 사양이 아니라, AI의 액세스 구조 전체를 어떻게 할 것인가라는 정치적·경제적 문제로 받아들여진 것이다.

DJ 미오

게다가, "대상 범위가 좁다"라고 해도, 정말 그러한지는 의구심이 들었다.

사용자 보고에 따르면, 분류기 (Classifier)의 경계가 너무 넓거나 오판정이 많은 것 아니냐는 이야기가 나오고 있다.

DJ 렌

구체적인 사례로는,

  • “cancer”라는 단어가 바이오 보안 (Biosecurity) 취급을 받았다는 보고
  • “심장은 무엇을 하는가?”에도 답하지 않았다는 보고
  • 생물학 계열 사용자가, 일반 계정으로는 차단되는데 Incognito 모드에서는 통과된다는 이야기

DJ 미오

그 외에도,

  • 단순한 엔지니어링 프롬프트에서 거부
  • PTX ISA 관련 질문이나, 추론 최적화 (Inference Optimization) 문의에서 플래그 (Flag) 발생

같은 예시도 언급되었다.

DJ 렌

일부는 절반은 농담이지만 날카로운 지적도 있어서, 추론 코드를 요청하면 갑자기 ONNX를 읽기 시작한다거나, JEPA (Joint-Embedding Predictive Architecture) 같은 구현으로 도망친다는 등, 즉 "능력이 유도되고 있다"는 느낌을 소재로 삼기도 했다.

DJ 미오

여기서 정리하자. 사실과 의견을 나누지 않으면 혼란스럽다.

DJ 렌

사실로서 비교적 직접적으로 뒷받침되는 것은,

Fable 5는 일반 제공, Mythos 5는 제한적 제공두 모델은 동일한 기반 모델 (Foundation Model)을 사용하며, Fable에 추가적인 가드레일 (Guardrails)이 적용됨가격은 입력 10달러 · 출력 50달러 / 100만 토큰Fable은 100만 토큰 컨텍스트 (Context) 지원폴백 (Fallback) 메커니즘과 SDK 미들웨어가 도입됨Anthropic은 프론티어 LLM (Frontier LLM) 개발 과정에서의 사이런트 개입 (Silent Intervention)이 약 0.03%의 트래픽에 영향을 미친다고 공개함구독 포함 제공은 6월 22일까지의 일시적 조치

DJ 미오

반면에 해석이나 의견에 속하는 것은,

  • "Anthropic이 승리했다"
  • "코딩의 해자 (Moat)를 구축했다"
  • "ASI (인공 초지능)를 노리고 있다"
  • "IPO를 위한 보여주기식이다"
  • "오픈 소스 말살 작전이다"
  • 반대로 "순수하게 안전에 대한 신념으로 하는 것이다"

같은 이야기들.

DJ 렌

그리고,

  • "GPT-4 모멘트 (Moment)다"
  • "일반 사용자에게는 그만큼의 차이가 느껴지지 않는다"
  • "엔지니어로서 나 자신을 완전히 뛰어넘었다"

같은 감상도, 표준화된 증거가 아니라 체험담이지.

DJ 미오

지지파는 능력 면에서의 비약을 상당히 강조하고 있어.

Felix Rieseberg는 AI에게 업무가 아닌 책임을 맡기는 방향으로의 변화를 이야기했고, Alex Albert는 도구라기보다 협력자로 느껴진다고 말했어.

DJ 렌

Karpathy도 메이저 버전 업데이트에 해당할 만한 격차라고 높게 평가하고 있지.

다만 동시에, 안전 가드레일 (Safety Guardrails)은 출시 시점에는 다소 과민하다고도 했어.

DJ 미오

Bcherny도 Opus 4.5 이후 최대의 진보로서, 판단력, 센스, 체계적인 디버깅 (Debugging) 능력을 높게 평가했어.

DJ 렌

그리고 인프라나 앱 측 기업들은 대체로 이 안전 논쟁보다는, 벤치마크 승리와 통합 가치 쪽에 주목하고 있었어.

DJ 미오

비판파는 어쨌든 투명성 결여를 문제 삼고 있어.

Natolambert는 사용자에게 알리지 않고 수행하는 것은 **정렬되지 않았다 (Misaligned)**고 말했고, Dean Ball은 독점 금지법 논쟁을 불러일으킬 수 있다고 경고했지.

DJ 렌

Jeremy Howard는 매우 어둡고 슬픈 날이라고까지 말했고, Gneubig는 AI가 특권적인 소수에게만 제공되는 미래를 우려했어. Eric Zelikman은 고객을 묵묵히 방해하고 있다는 프레임 (Framing)을 제시했지.

DJ 미오

이 흐름 속에서, 주권 모델 (Sovereign Model)이나 오픈 모델 (Open Model)의 필요성을 주장하는 목소리도 상당히 커졌어.

DJ 렌

중립적인 입장도 있어.

Anthropic은 아마 진심으로 필요한 안전 개입이라고 믿고 있을 것이라는 시각.

다만, 제품 설계 (Product Design)로서는 좋지 않다는 입장이야.

DJ 미오

또한, Anthropic에게 무제한의 프론티어 능력을 누구에게나 제공할 의무는 없다, 하지만 이번 건은 이타적이라기보다 시장 분할이나 비즈니스 판단으로 보인다는 의견도 있었어.

DJ 미오

여기, 교육 프로그램으로서 굉장히 중요한 지점이야. 문제는 "강하냐 약하냐"뿐만 아니라, 의존 대상으로 신뢰할 수 있는가거든.

DJ 렌

기업에게 핵심 문제는 **예측 가능성 (Predictability)**이야.

제공자가 추정한 태스크 분류 (Task Classification)에 기반해 보이지 않는 성능 저하를 넣는다면, 실패의 원인을 추적할 수 없게 돼.

이것이,

  • 모델의 한계인지
  • 프롬프트 (Prompt)의 문제인지
  • 내부 정책 개입인지

가 불분명해지니까.

DJ 미오

그건 즉, 중요한 업무에서의 **공급망 리스크 (Supply Chain Risk)**가 될 수 있다는 뜻이야. 그래서 일부 사람들은 기업이 **오픈 웨이트 (Open Weights)나 자체 제작 모델 (In-house Model)**로 향하는 압력이 높아질 것이라고 말했지.

DJ 렌

게다가 생물학자의 보고에 있었던 것처럼, 계정 컨텍스트 (Account Context)나 과거 이용 이력이 트리거 동작에 영향을 미치는 것 아니냐는 불안도 있어.

DJ 미오

다만 주의해야 할 점은, 이번에 제공된 자료의 범위 내에서는 Anthropic이 사용자 데이터를 학습에 사용했다거나, 명시된 개인정보 보호 조건을 위반했다는 직접적인 증거는 없다는 거야.

여기서의 개인정보 보호 논쟁은 주로 행동 프로파일링 (Behavioral Profiling)이나 사이런트한 정책 집행에 관한 것이지.

DJ 렌

연구 용도에서는 더욱 심각해.

숨겨진 개입이 있으면, **재현성 (Reproducibility)**도 **과학적 귀속 (Scientific Attribution)**도 무너지거든.

어떤 기법이 안 된 것인지, 모델이 약화된 것인지 구분할 수 없게 되니까.

DJ 미오

이번 릴리스가 큰 이유는, **능력 점프 (Capability Jump)**와 **액세스 제어의 가시화 (Visualization of Access Control)**가 동시에 일어났다는 점이야.

DJ 렌

경쟁 환경으로 보면, GPT-5.5, 앞으로 나올 GPT-5.6, Gemini 3.5 Pro와의 싸움 속에서, 일시적으로 Anthropic이 코딩이나 에이전트 작업에서 앞서 나갔다고 보는 사람들이 많았어.

DJ 미오

동시에, 오픈 모델 (Open Model)과 클로즈드 최첨단 모델 (Closed Frontier Model)의 격차라는 맥락도 있어. 어떤 게시물에서는 오픈 웨이트 (Open Weights) 모델이 평균적으로 약 4개월 뒤처져 있다는 견해도 소개되었지.

DJ 렌

하지만 이번에 기억해야 할 포인트는 단순히 "냄새가 날 정도로 거대한 모델"이나 "벤치마크 점수의 폭발적 상승"만이 아닐지도 몰라.

오히려, 프론티어 모델 (Frontier Model)을 공개하면서도 영역별로 보이지 않는 제한을 거는 정책을 일반적인 것으로 만들어 버리는, 그 선례가 될 수도 있어.

DJ 미오

그리고 그것이 향후의 논의――

안전성 vs 개방성 / 연구 도구에 대한 공정한 액세스 / 독점 금지법과 플랫폼 권력 / API 제공자에 대한 기업 신뢰 / 순수 성능에서 밀리더라도 민감한 업무에서는 오픈 모델이 선택될 것인가

――로 직결되는 거지.

DJ 렌

이 뉴스레터는 Fable 5를 중심으로 다루고 있지만, 주변에도 몇 가지 중요한 이야기들이 있었어. 가볍게 훑어보자.

DJ 미오

먼저 **Agents’ Last Exam (ALE)**라는 새로운 벤치마크.

1,500개 이상의 태스크, 55개 직종, 100개 이상의 기관, 300명 이상의 전문가가 참여하고 있고, **최난이도 계층에서 톱 에이전트조차 2.6%**밖에 득점하지 못해.

"노동 시장에 부합하는 에이전트 성능"을 측정하려는 시도로서 매우 중요해.

DJ 렌

Cohere는 North Mini Code를 공개했어.

30B total / 3B active 의 MoE (Mixture of Experts), 256K 컨텍스트 (Context), 64K 최대 생성, Apache 2.0 라이선스.

에이전트적 워크플로우에 최적화된, 최초의 오픈 소스 코딩 모델로 평가받고 있어.

DJ 미오

Google은 Gemini 3.5 Flash Live Translate를 발표했어.

70개 이상의 언어로 실시간 음성 대 음성 번역을 지원해. Gemini API, AI Studio, Google Translate에 적용되며, 향후 Meet에도 도입될 예정이야.

DJ 렌

iOSWorld는 개인용 인텔리전트 스마트폰 에이전트를 측정하는 벤치마크로, 26종의 커스텀 iOS 앱과 133개의 태스크를 포함해.

최강급 프론티어 모델이라도, **특권 액세스 (Privileged Access)를 포함해도 성공률이 52%**에 불과해.

즉, 스마트폰 조작 에이전트는 아직 전혀 완성되지 않았다는 뜻이지.

DJ 미오

연구 및 시스템 관련 소식도 풍부했어.

DJ 렌

먼저 Latent Context Language Models (LCLMs). 긴 문맥(Long Context)을 최대 16배 압축하여, KV 캐시 (KV Cache) 압축보다 레이턴시 (Latency) / 정확도 (Accuracy) 사이의 트레이드오프 (Trade-off)가 더 좋다는 내용이야.

DJ 미오

Microsoft Research의 Mirage는 3D 장면을 잠재 토큰 (Latent Token)으로 취급하여, 영상 생성을 10.57배 가속화하고 메모리를 55배 절감했다고 보고했어.

DJ 렌

vLLM은 vime라는 RL (강화학습) 사후 학습 프레임워크를 도입했어. NeMo-RL, OpenRLHF, verl과 어깨를 나란히 하는 선택지로 자리 잡았지.

DJ 미오

게다가, Self-Harness와 같은 자기 개선 스캐폴딩 (Self-improvement Scaffold)이나, AutoForge / interleaved thinking처럼 턴(Turn)을 넘나들며 추론 흔적을 유지하려는 시도들도 화제였어.

DJ 렌

Google과 Hugging Face의 Fast Gemma Challenge도 있었지. 단일 A10G에서 Gemma 4 E4B를 가속화하면서도 품질을 크게 떨어뜨리지 않으려는 도전이었어.

DJ 미오

개발 워크플로우 측면에서는, LangChain이 **Fleet에서의 반복적인 트리거 구동 에이전트 루프 (Iterative Trigger-driven Agent Loop)**라는 패턴을 소개했어.

DJ 렌

OpenAI는 Responses API의 웹 검색에 이미지 결과를 추가했어.

GitHub/Copilot 앱은 **병렬 서브 세션 (Parallel Sub-sessions)**과 **동적 UI를 위한 캔버스 (Canvas)**를 업데이트했지.

DJ 미오

Hermes Desktop는 Ollama 지원을 추가하여, 자기 학습 Python 기술 및 메시징 통합도 진행했다.

DJ 렌

한편 보안 측면에서는, Temenos가 "에이전트가 아니라 생성된 코드를 샌드박스화하자"라는 카운터포인트를 제시했다.

rootless gVisor로 실행 코드만 격리하고, 인증이나 도구는 호스트 측에 남겨두는 방식이다.

DJ 미오

Axiom의 EconLib에서는, Lean 기반의 경제학 라이브러리로서 Aumann의 "agreeing to disagree" 정리를 형식화했더니, **숨겨져 있던 가산성 가정 (countability assumption)**이 드러났다는 이야기도 흥미롭다.

DJ 렌

그리고 Economy of Minds. 에이전트 협업을 중앙집중식 오케스트레이션이 아닌, 경매 (auction)나 인센티브로 구성하는 제안으로,

  • 수학적 추론에서
    15.9% → 57.0%
  • 금융 리서치에서
    45.0% → 60.0%

와 같은 개선을 보고했다.

DJ 미오

의료 분야에서는, Mayo Clinic의 REDMOD가 CT 스캔을 통해 췌장암을 진단 최대 3년 전에 검출하고, 숨겨진 암의 73%를 중앙값 475일 전에 찾아냈다는 보고도 있었다.

DJ 렌

Hugging Face와 Arcee는, Arcee의 모델 및 데이터셋 보관을 AWS S3에서 HF로 교체하는 파트너십을 발표했다. 프라이빗한 데이터도 포함된다.

DJ 미오

Cohere는 계속해서, Sovereign AI for all이라는 주권 AI 및 오픈 노선을 밀어붙이고 있었다.

DJ 렌

그리고 Marks Saroufim은, 프론티어 랩(Frontier Labs)이 오픈 연구에 의존하면서도 그 대가로 폐쇄적으로 변해가는 흐름에 대한 반응으로, Researcher Reciprocity License를 제안했고, GPU MODE 데이터셋을 그쪽으로 옮겼다.

DJ 미오

Reddit에서는 오픈 모델 추론 관련 이야기도 뜨거웠다.

Xiaomi는, 1T 파라미터급 MoE를 표준 8-GPU 서버에서 1000+ tokens/s로 구현했다고 주장했다. 핵심은 전용 하드웨어가 아닌 **모델-시스템 공동 설계 (co-design)**이다.

DJ 렌

기술적으로는,

  • MoE expert만 FP4/MXFP4 양자화 (quantization)
  • non-expert 부분은 고정밀도 유지
  • FP4 QAT
  • DFlash 블록 단위 마스크가 포함된 speculative decoding
  • 저지연 상주 커널 (low-latency resident kernel)

등이 언급되었다.

DJ 미오

하지만 재현성 문제도 크다.

"그 8-GPU가 정확히 무엇인가?"
"1T라도 활성(active) 파라미터는 몇 B인가?"

라는 의문이 제기되고 있으며, 하드웨어, 상호 연결 (interconnect), 배치 (batch), 컨텍스트 길이 (context length), 서빙 스택 (serving stack) 정보 없이는 성능 비교가 불가능하다.

DJ 렌

한편, Gemma 4 Chat Template에 preserve_thinking이 포함된다는 이야기도 있었다. 커뮤니티가 먼저 진행하던 템플릿 개조를 Google 공식 측에서 도입하는 흐름이다.

DJ 미오

다만, 아직 PR 단계에서 머지(merge)되지 않았을 가능성도 있어, 실제 모델 리포지토리를 확인하는 것이 좋겠다는 신중론도 있었다.

나아가, 이것이 정말 효과를 발휘하려면 더 큰 Gemma 4 124B MoE가 필요하다는 기대도 나오고 있다.

DJ 렌

보다 일반적인 커뮤니티에서는, 역시 Fable 5 / Mythos 5의 액세스 계층화에 대한 반응이 컸다.

DJ 미오

논점은 다음과 같이 정리된다.

  • Fable과 Mythos는 동일한 기반 모델이다.
  • Fable은 안전 폴백 (safety fallback) 기능이 있다.
  • 위험 영역은 Opus 4.8으로 넘어간다.
  • 영향은 5% 미만으로 간주된다.
  • 하지만
    6월 22일 이후에는 크레딧제로 전환될 가능성이 있다.

DJ 렌

댓글란에서는,

"AGI confirmed"와 같은 열광적인 반응과,

"Fable은 최근 오히려 멍청해진 것 아닌가?"와 같은 냉소적인 반응이 섞여 있었다.

DJ 미오

그리고 프론트엔드나 구현상의 버그 같은 이야기도 있었다. 예를 들어 깨진 HTML을 출력한다는 보고다.

이는 모델 능력의 본질이라기보다, 출시 당시의 구현 문제일 수 있다.

DJ 렌

또한, "월 200달러의 구독료를 내더라도, 이 모델이라면 API 환산 시 몇 번 사용하면 끝나는 것 아닌가?"라는 논쟁도 있었다.

즉, 프론티어급 모델은 정액제 구독과 구조적으로 상성이 좋지 않은 것이 아니냐는 것이다.

DJ 미오

그 결과, 일상적인 용도는 로컬 추론(Local Inference)이나 저렴한 모델로 처리하고, 정말로 가치 있는 작업만 프론티어 API에 던지는 식으로 역할 분담이 진행될 것이라는 예측도 있었다.

DJ 미오

일반 사용자 중심의 서브레딧(Subreddit)에서는 또 다른 주제인 Anthropic의 개인정보 처리방침(Privacy Policy) 개정도 화제가 되었다.

DJ 렌

게시물의 주장에 따르면, 2026-06-08에 개정되어 2026-07-08에 발효되는 문구 중, 법 집행 기관에 대한 정보 공개 조건이 법적 절차에 의한 강제에서, Anthropic 스스로가 **선의의 믿음(good faith belief)**에 따라 필요하다고 판단할 경우에도 공개할 수 있도록 읽힐 수 있다는 우려가 제기되었다.

DJ 미오

해당 게시물 작성자는 창작, 역할극(Roleplay), 픽션 속의 협박, 정신 건강에 대한 토로 등이 오탐지(False Positive)될 리스크를 걱정하고 있었다.

댓글창에서는 "심각한 프라이버시 후퇴다"라는 반발이 거셌다.

DJ 렌

EU권 사용자들에 대해서는 GDPR(개인정보보호법) 적합성에 의문이 있다는 의견도 있어, 우선 DPO(개인정보보호책임자)에게, 그래도 안 된다면 규제 당국에 문의해야 한다는 이야기까지 나오고 있었다.

DJ 미오

다만, 여기서도 중요한 점은 뉴스레터 본문이 강조했듯이, 이번에 제공된 자료 중에 Anthropic이 실제로 사용자 데이터를 부당하게 학습에 사용했다는 증거는 없다는 것이다.

쟁점은 주로 감시·신고·행동 판정의 경계에 있다.

DJ 렌

약간 결이 다른 주제로는, SpaceX의 AI 위성 설계라는 이야기도 일반 서브레딧에서 뜨겁게 논의되었다.

DJ 미오

제시된 컨셉에서는,

  • 대형 방열기
  • 집중형 컴퓨팅(Compute)
  • 약 70m의 날개 폭
  • 150kW 태양광 패널
  • 150kW 피크, 120kW 평균의 연산 페이로드(Computing Payload)

등이 묘사되어 있었다.

DJ 렌

하지만 반응은 상당히 회의적이다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0