Qiita헤드라인2026. 05. 08. 10:07

OpenMythosとは何者なのか？

요약

이 글은 Anthropic의 최신 모델 'Capybara'(코드명 Mythos)에 대한 공개된 학술 논문을 바탕으로, 그 아키텍처를 추론하고 재현하려는 오픈소스 프로젝트인 OpenMythos에 대해 설명합니다. 핵심 내용은 기존 트랜스포머가 레이어를 쌓는 방식과 달리, Recurrent-Depth Transformer(RDT)라는 루프형 구조를 사용하여 적은 파라미터로도 깊고 효율적인 추론이 가능하며, 이 기술을 통해 LLM의 메모리 효율성과 추론 능력을 혁신할 수 있다는 것입니다. OpenMythos는 이러한 최첨단 아키텍처가 오픈소스 LLM 분야에 적용될 미래를 제시합니다.

핵심 포인트

OpenMythos는 Anthropic의 최고 모델 'Capybara'(Mythos)의 공개 논문 기반 추론 및 재현 프로젝트입니다.
핵심 기술은 Recurrent-Depth Transformer (RDT)로, 트랜스포머 레이어를 쌓는 대신 같은 블록을 반복(루프)하여 깊은 추론을 구현합니다.
RDT는 적은 파라미터 수(예: 절반 수준)로도 높은 성능을 달성할 수 있어 메모리 효율성이 높습니다.
전통적인 CoT(Chain-of-Thought)가 토큰 출력을 통해 컨텍스트를 늘리는 것과 달리, RDT는 잠재 공간에서 내부 루프를 돌려 추론하므로 컨텍스트 낭비가 없습니다.
이러한 아키텍처의 발전은 오픈소스 LLM에서도 고성능 모델 구현 가능성을 높여, 더 작고 효율적인 '지능'을 만들 수 있음을 시사합니다.

OpenMythos を ROCm に移植してみたのでその時に感じた疑問や、なんとなくこうなんじゃね？感をまとめてみた。

これをスライドにしたものは Speaker Deck にアップロードしてるので、好きなほうを参照してください。

OpenMythos はこっち

Anthropic が 2026 年 4 月 7 日に正式発表した、実在するフロンティア AI モデル「Capybara」（内部コードネーム「Mythos」）

Opus を超える
新たなモデルティアとして位置づけられた Anthropic 史上最強のモデルです - 2026 年 3 月 26 日にメディア（Fortune）経由でリークされ、同年 4 月 7 日に正式発表されました
Project Glasswingのもとで限定公開されており、一般・公開 API では利用できません - 参加 12 社：AWS、Apple、Google、Microsoft、NVIDIA、Broadcom、Cisco、CrowdStrike、JPMorganChase、Linux Foundation、Palo Alto Networks など + 40 以上の追加組織
サイバーセキュリティ能力が突出：Firefox の脆弱性 271 件を自律的に発見し、32 ステップの企業ネットワーク攻撃シミュレーションを完遂しました（Anthropic 公式発表） - アーキテクチャの
内部実装詳細は非公開です → これが OpenMythos の出発点です

公開済み学術研究をもとに Mythos のアーキテクチャを推測・再現しようとするオープンソース LLM

項目	内容
名称	OpenMythos
...

訓練データ	FineWeb-Edu（公開データセット）
GitHub	公開から数週間で 12,000 以上のスター・約 2,700 フォーク

※ 重み（trained weights）は含みません。実行には別途大規模な訓練が必要です。

Anthropic は「一般公開に向けたサイバーセキュリティ上のセーフガードが整うまで Mythos (Capybara) を公開しない」と説明しています。$1 億相当のクレジットを Glasswing 参加組織に提供しました。
本スライドで言及する
OpenMythosは「Mythos(Capybara)はおそらくこういうアーキテクチャではないか」という考察を、公開論文のみを用いて実証しようとするオープンソース PoC です。

つまり、OpenSource LLMにおいても、Capybara と同様のアーキテクチャを採用できる未来が近いと考えられます。

ローカルでも思考トークンに塗りつぶされない、とても賢い LLM が作られる可能性があります（省メモリ！）

OpenMythos のアーキテクチャは同じブロックを使い回すので、レイヤーを重ねる通常の Transformer より重み自体が少ないです。

Recurrent-Depth Transformer（RDT）＝ループ型 Transformer

通常の Transformer がレイヤーを「積み重ねる」のに対し、

RDT は同じブロックを T 回繰り返すことで深い推論を実現します。

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

h_t：ループ t 回目の隠れ状態 -
e：入力のエンコード（毎ループ注入） -
A, B：学習済みパラメータ（スペクトル半径 < 1 で安定化）

→ 各ループ ≈ Chain-of-Thought の 1 ステップ（ただし潜在空間で実施）

Mythos の特徴（新問題への高い推論力・事実記憶のムラ）が
ループ型アーキテクチャの特性（記憶より合成が得意）と一致することが仮説の根拠です。

Parcae 論文（Prairie et al., 2026）より

770M パラメータのループ型モデルが、同じデータで学習した
1.3B 固定深度 Transformer と同等の性能を発揮します。

つまり、約半分のパラメータ数で同じ品質を実現できます！

モデルの重みファイルが小さくなり、ストレージ・VRAM ロードが軽くなります
推論時のメモリ効率が高くなります
ただし学習時はループ数分のアクティベーションが積まれるため、トレードオフがあります

-	重み（パラメータ）	学習時アクティベーション
固定深度 Transformer	多い	通常
RDT（ループ型）	少ない	ループ数分増えます

通常の Chain-of-Thought（言語空間）

推論ステップをトークンとして出力する必要があります
「まず〜を考えます。次に〜を…」という文字列を生成しながら考えます
生成したトークン分だけコンテキスト長が伸びます → KV キャッシュが膨れます
ユーザーには思考過程が見えます

RDT の潜在空間推論

トークンを一切出力せずに、隠れ状態 h_t を内部でループさせて「考えます」 - 外から見ると一回のフォワードパスの中で完結します
コンテキスト長が増えません

CoT (言語空間)	RDT (잠재 공간)
추론의 장소	토큰 출력으로 외부로 내보내기	숨겨진 상태의 내부 루프
...
「동일한 계산 비용으로 더 깊이 생각할 수 있다」또는「컨텍스트를 낭비하지 않고 추론할 수 있다」가 본질에 가깝다고 생각합니다.

기술	논문	공개된 년도
Recurrent-Depth Transformer	Loop, Think, & Generalize	2025
...
Anthropic 에서

정보를 도난당한 것이나, 가중치를 누설한 것도 아닙니다.

구성 요소	논문	공개된 년도
MLA (KV 캐시 1/10 압축)	DeepSeek-V2	2024
...
주장될 수 있는 위협 시나리오와 이에 대한 사실

주장	사실
「Claude 의 내부에서 도난했다」	모든 소스 코드 공개, 공개 논문만 참조함
...	이론적 추측이며, Anthropic 공식 정보가 아닙니다
「악용 가능한 강력한 AI」	현재는 연구 목적의 실험적 구현·무가중치입니다

주의: Firefox 271 건의 취약점 발견 및 32 단계 공격은

OpenMythos 가 아닌 Anthropic 의 Mythos Preview 본체의 실적입니다 (Anthropic 공식 발표).

OpenMythos 는 그 아키텍처 추측을 시도하는 PoC 에 불과합니다.

OpenMythos 는「숨겨야 할 것이 없다」설계입니다**

소스 코드 100% 공개 (GitHub)
라이선스:
MIT(상업적 이용·변경·재분배 자유) - PyPI 에서 누구나 설치 및 확인 가능
훈련 스크립트·하이퍼파라미터도 모두 공개되었습니다

「위협」이 될 존재가 자신의 코드를 전적으로 공개한다는 것은 생각하기 어렵습니다.

오히려 투명성이 바로 이 프로젝트의 본질입니다.

OpenMythos 는 아직「연구 프로토타입」단계입니다

버전:
0.5.0 alpha - 체크포인트 없이 실행하면 의미 없는 출력이 반환됩니다 (랜덤 초기화 상태)
실용화는 대규모 훈련이 필요합니다 (기본 목표: 30B 토큰)
기존 Claude 나 Mythos 와는
완전히 다른 것: 가중치도 훈련도 공유하지 않았습니다

기존 모델의 아키텍처를 추측 및 재현하는 연구는 합법적이며 정당합니다

Google 의 논문에서 Facebook 이 구현 → Meta LLaMA
OpenAI 의 GPT 논문에서 각사가 독자 구현 → 많은 오픈 LLM
DeepSeek 가 Transformer 개선을 공개 → 각 프로젝트가 채택

OpenMythos 도 같은 맥락에 있습니다

공개 정보를 바탕으로 아키텍처를 추측 및 구현하는 것은,

AI 연구 커뮤니티의 표준적인 활동입니다.

현재 시점에서는위협이 되지 않습니다.

다음의 이유 때문입니다.

정보원은 모두 공개 논문— 기밀 누설·도용은 아닙니다 —
alpha 버전·연구 목적·무가중치— Mythos 의 대체품이 될 수 없습니다 —
아키텍처 연구는 정당— AI 연구의 표준적인 실천입니다

OpenMythos 는「Mythos 의 아키텍처를 공개 논문에서 이론적으로 추측 및 재현하려는 오픈소스 LLM」이며, 투명성이 높은 학술 프로젝트입니다.

그러나,AI/LLM 전체의 진화를 고려한 보안 대응 제도의 강화는필수라고 생각합니다.

현재 시점에서는 OpenMythos 가 위협이 아니지만, 조직 자체가 LLM 의 진화에 뒤처지면 위협이 될 수 있습니다

・・・일지도 모릅니다.

Claude Mythos = Anthropic 이 2026 년 4 월 7 일에 공식 발표한 실제 존재의 최강 프론티어 모델입니다 (Mythos 는 내부 코드 네임이며, 공개 모델명은 Capybara).

Project Glasswing 의 밑에서 제한적 공개 중입니다.아키텍처 내부는 비공개.

OpenMythos = 그 비공개 아키텍처를 공개 논문에서 추측 및 재현하려는 MIT 라이선스의 PoC LLM

위협인가？= No — 투명성·합법성·연구 목적의 관점에서 근거 없음

한 문으로 요약하면

「Mythos 의 아키텍처를공개 논문만으로 재현해 보았습니다」

해봤던 시리즈의 동영상과 같은 느낌입니다.

즉LLM 의 적절한 진화 과정으로 간주하는 것이 좋겠습니다.

770M 파라미터로 1.3B 와 동등한 성능이 나오면, 지금까지 작동하지 않았던 사양의 컴퓨터라도 더 똑똑한 모델이 작동할 수 있게 됩니다.

간단한 질문 → 빠르게 답함 (전력 절약)
어려운 추론 → 천천히 루프하며 생각함 (고정밀도)

이러한 인간의 사고에 가까운 동적 계산이 모델 레벨에서 실현될 수 있습니다. 현재의 모델은 간단한 질문과 어려운 질문 모두 동일한 계산량을 사용하므로, 여기서는 상당한 진화라고 생각합니다.

Mythos 가 그 라인과本当に突出した性能を出しているなら、RDT라는 가설의 설득력도 상당히 높아지며, 오픈소스 측에 구현이 퍼지는 것은 시간 문제일지도 모릅니다

Anthropic 공식 발표 값 (2026 년 4 월)

ベンチマーク	Mythos Preview	Opus 4.6（前世代最強）
SWE-bench Verified（コーディング）	93.9%
80.8%
SWE-bench Pro	77.8%
53.4%
USAMO 2026（数学オリンピック）	97.6%
42.3%
GPQA Diamond（大学院レベル科学）	94.6%
91.3%
CyberGym（サイバーセキュリティ）	83.1%
66.6%
Terminal-Bench 2.0	82.0%
65.4%

OpenMythos をローカルで動かすための前提知識

OpenMythos は重み（学習済みモデルデータ）がありません
ローカルで動かすには、まずモデルの学習から始める必要があります

そこで、ここでは「モデルの学習」に必要な前提知識をまとめます。

LLM の重みは 浮動小数点数 で保存されます。

精度によって 1 パラメータあたりのバイト数が変わります。

精度	ビット数	バイト数/パラメータ
float32（FP32）	32bit	4 バイト
bfloat16（BF16）
16bit
2 バイト
int8（量子化）	8bit	1 バイト
int4（量子化）	4bit	0.5 バイト

OpenMythos はデフォルトで

BF16 を使用しています。

推論 VRAM ≈ パラメータ数 × 2 バイト

モデル規模	パラメータ数	推論 VRAM 目安
1B モデル	10 億	約 2GB
...
学習時は重み以外にも以下が必要です

種別	用途
重み（weights）	モデルのパラメータ本体
...

学習 VRAM ≈ 推論 VRAM × 3〜4 倍

3B モデルなら推論 6GB → 学習約 18〜24GB

バリアント	推論 VRAM 目安	学習 VRAM 目安
mythos_1b	約 2GB	約 8GB
...
GPU 割当可能メモリ：最大 112GB

バリアント	推論	学習	備考
mythos_3b	可能	可能	まずここから
...

推奨：3b で動作確認し、10b で本格学習を実施してください。

AI 자동 생성 콘텐츠

원문 바로가기

OpenMythosとは何者なのか？

요약

핵심 포인트

댓글