OpenMythosとは何者なのか?
요약
이 글은 Anthropic의 최신 모델 'Capybara'(코드명 Mythos)에 대한 공개된 학술 논문을 바탕으로, 그 아키텍처를 추론하고 재현하려는 오픈소스 프로젝트인 OpenMythos에 대해 설명합니다. 핵심 내용은 기존 트랜스포머가 레이어를 쌓는 방식과 달리, Recurrent-Depth Transformer(RDT)라는 루프형 구조를 사용하여 적은 파라미터로도 깊고 효율적인 추론이 가능하며, 이 기술을 통해 LLM의 메모리 효율성과 추론 능력을 혁신할 수 있다는 것입니다. OpenMythos는 이러한 최첨단 아키텍처가 오픈소스 LLM 분야에 적용될 미래를 제시합니다.
핵심 포인트
- OpenMythos는 Anthropic의 최고 모델 'Capybara'(Mythos)의 공개 논문 기반 추론 및 재현 프로젝트입니다.
- 핵심 기술은 Recurrent-Depth Transformer (RDT)로, 트랜스포머 레이어를 쌓는 대신 같은 블록을 반복(루프)하여 깊은 추론을 구현합니다.
- RDT는 적은 파라미터 수(예: 절반 수준)로도 높은 성능을 달성할 수 있어 메모리 효율성이 높습니다.
- 전통적인 CoT(Chain-of-Thought)가 토큰 출력을 통해 컨텍스트를 늘리는 것과 달리, RDT는 잠재 공간에서 내부 루프를 돌려 추론하므로 컨텍스트 낭비가 없습니다.
- 이러한 아키텍처의 발전은 오픈소스 LLM에서도 고성능 모델 구현 가능성을 높여, 더 작고 효율적인 '지능'을 만들 수 있음을 시사합니다.
OpenMythos を ROCm に移植してみたのでその時に感じた疑問や、なんとなくこうなんじゃね?感をまとめてみた。
これをスライドにしたものは Speaker Deck にアップロードしてるので、好きなほうを参照してください。
OpenMythos はこっち
Anthropic が 2026 年 4 月 7 日に正式発表した、実在するフロンティア AI モデル「Capybara」(内部コードネーム「Mythos」)
-
Opus を超える
新たなモデルティアとして位置づけられた Anthropic 史上最強のモデルです - 2026 年 3 月 26 日にメディア(Fortune)経由でリークされ、同年 4 月 7 日に正式発表されました -
Project Glasswingのもとで限定公開されており、一般・公開 API では利用できません - 参加 12 社:AWS、Apple、Google、Microsoft、NVIDIA、Broadcom、Cisco、CrowdStrike、JPMorganChase、Linux Foundation、Palo Alto Networks など + 40 以上の追加組織
-
サイバーセキュリティ能力が突出:Firefox の脆弱性 271 件を自律的に発見し、32 ステップの企業ネットワーク攻撃シミュレーションを完遂しました(Anthropic 公式発表) - アーキテクチャの
内部実装詳細は非公開です → これが OpenMythos の出発点です
公開済み学術研究をもとに Mythos のアーキテクチャを推測・再現しようとするオープンソース LLM
| 項目 | 内容 |
|---|---|
| 名称 | OpenMythos |
| ... | |
| 訓練データ | FineWeb-Edu(公開データセット) |
| GitHub | 公開から数週間で 12,000 以上のスター・約 2,700 フォーク |
※ 重み(trained weights)は含みません。実行には別途大規模な訓練が必要です。
- Anthropic は「一般公開に向けたサイバーセキュリティ上のセーフガードが整うまで Mythos (Capybara) を公開しない」と説明しています。$1 億相当のクレジットを Glasswing 参加組織に提供しました。
- 本スライドで言及する
OpenMythosは「Mythos(Capybara)はおそらくこういうアーキテクチャではないか」という考察を、公開論文のみを用いて実証しようとするオープンソース PoC です。
つまり、OpenSource LLMにおいても、Capybara と同様のアーキテクチャを採用できる未来が近いと考えられます。
ローカルでも思考トークンに塗りつぶされない、とても賢い LLM が作られる可能性があります(省メモリ!)
OpenMythos のアーキテクチャは同じブロックを使い回すので、レイヤーを重ねる通常の Transformer より重み自体が少ないです。
Recurrent-Depth Transformer(RDT)=ループ型 Transformer
通常の Transformer がレイヤーを「積み重ねる」のに対し、
RDT は同じブロックを T 回繰り返すことで深い推論を実現します。
h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
h_t:ループ t 回目の隠れ状態 -
e:入力のエンコード(毎ループ注入) -
A,B:学習済みパラメータ(スペクトル半径 < 1 で安定化)
→ 各ループ ≈ Chain-of-Thought の 1 ステップ(ただし潜在空間で実施)
Mythos の特徴(新問題への高い推論力・事実記憶のムラ)が
ループ型アーキテクチャの特性(記憶より合成が得意)と一致することが仮説の根拠です。
Parcae 論文(Prairie et al., 2026)より
770M パラメータのループ型モデルが、同じデータで学習した
1.3B 固定深度 Transformer と同等の性能を発揮します。
つまり、約半分のパラメータ数で同じ品質を実現できます!
- モデルの重みファイルが小さくなり、ストレージ・VRAM ロードが軽くなります
- 推論時のメモリ効率が高くなります
- ただし学習時はループ数分のアクティベーションが積まれるため、トレードオフがあります
| - | 重み(パラメータ) | 学習時アクティベーション |
|---|---|---|
| 固定深度 Transformer | 多い | 通常 |
| RDT(ループ型) | 少ない | ループ数分増えます |
通常の Chain-of-Thought(言語空間)
- 推論ステップをトークンとして出力する必要があります
- 「まず〜を考えます。次に〜を…」という文字列を生成しながら考えます
- 生成したトークン分だけコンテキスト長が伸びます → KV キャッシュが膨れます
- ユーザーには思考過程が見えます
RDT の潜在空間推論
- トークンを一切出力せずに、隠れ状態
h_tを内部でループさせて「考えます」 - 外から見ると一回のフォワードパスの中で完結します - コンテキスト長が増えません
| CoT (言語空間) | RDT (잠재 공간) | |
|---|---|---|
| 추론의 장소 | 토큰 출력으로 외부로 내보내기 | 숨겨진 상태의 내부 루프 |
| ... | ||
| 「동일한 계산 비용으로 더 깊이 생각할 수 있다」또는「컨텍스트를 낭비하지 않고 추론할 수 있다」가 본질에 가깝다고 생각합니다. |
| 기술 | 논문 | 공개된 년도 |
|---|---|---|
| Recurrent-Depth Transformer | Loop, Think, & Generalize | 2025 |
| ... | ||
| Anthropic 에서 |
정보를 도난당한 것이나, 가중치를 누설한 것도 아닙니다.
| 구성 요소 | 논문 | 공개된 년도 |
|---|---|---|
| MLA (KV 캐시 1/10 압축) | DeepSeek-V2 | 2024 |
| ... | ||
| 주장될 수 있는 위협 시나리오와 이에 대한 사실 |
| 주장 | 사실 |
|---|---|
| 「Claude 의 내부에서 도난했다」 | 모든 소스 코드 공개, 공개 논문만 참조함 |
| ... | 이론적 추측이며, Anthropic 공식 정보가 아닙니다 |
| 「악용 가능한 강력한 AI」 | 현재는 연구 목적의 실험적 구현·무가중치입니다 |
주의: Firefox 271 건의 취약점 발견 및 32 단계 공격은
OpenMythos 가 아닌 Anthropic 의 Mythos Preview 본체의 실적입니다 (Anthropic 공식 발표).
OpenMythos 는 그 아키텍처 추측을 시도하는 PoC 에 불과합니다.
OpenMythos 는「숨겨야 할 것이 없다」설계입니다**
- 소스 코드 100% 공개 (GitHub)
- 라이선스:
MIT(상업적 이용·변경·재분배 자유) - PyPI 에서 누구나 설치 및 확인 가능 - 훈련 스크립트·하이퍼파라미터도 모두 공개되었습니다
「위협」이 될 존재가 자신의 코드를 전적으로 공개한다는 것은 생각하기 어렵습니다.
오히려 투명성이 바로 이 프로젝트의 본질입니다.
OpenMythos 는 아직「연구 프로토타입」단계입니다
- 버전:
0.5.0 alpha - 체크포인트 없이 실행하면 의미 없는 출력이 반환됩니다 (랜덤 초기화 상태) - 실용화는 대규모 훈련이 필요합니다 (기본 목표: 30B 토큰)
- 기존 Claude 나 Mythos 와는
완전히 다른 것: 가중치도 훈련도 공유하지 않았습니다
기존 모델의 아키텍처를 추측 및 재현하는 연구는 합법적이며 정당합니다
- Google 의 논문에서 Facebook 이 구현 → Meta LLaMA
- OpenAI 의 GPT 논문에서 각사가 독자 구현 → 많은 오픈 LLM
- DeepSeek 가 Transformer 개선을 공개 → 각 프로젝트가 채택
OpenMythos 도 같은 맥락에 있습니다
공개 정보를 바탕으로 아키텍처를 추측 및 구현하는 것은,
AI 연구 커뮤니티의 표준적인 활동입니다.
현재 시점에서는위협이 되지 않습니다.
다음의 이유 때문입니다.
정보원은 모두 공개 논문— 기밀 누설·도용은 아닙니다 —
alpha 버전·연구 목적·무가중치— Mythos 의 대체품이 될 수 없습니다 —
아키텍처 연구는 정당— AI 연구의 표준적인 실천입니다
OpenMythos 는「Mythos 의 아키텍처를 공개 논문에서 이론적으로 추측 및 재현하려는 오픈소스 LLM」이며, 투명성이 높은 학술 프로젝트입니다.
그러나,AI/LLM 전체의 진화를 고려한 보안 대응 제도의 강화는필수라고 생각합니다.
현재 시점에서는 OpenMythos 가 위협이 아니지만, 조직 자체가 LLM 의 진화에 뒤처지면 위협이 될 수 있습니다
・・・일지도 모릅니다.
Claude Mythos = Anthropic 이 2026 년 4 월 7 일에 공식 발표한 실제 존재의 최강 프론티어 모델입니다 (Mythos 는 내부 코드 네임이며, 공개 모델명은 Capybara).
Project Glasswing 의 밑에서 제한적 공개 중입니다.아키텍처 내부는 비공개.
OpenMythos = 그 비공개 아키텍처를 공개 논문에서 추측 및 재현하려는 MIT 라이선스의 PoC LLM
위협인가?= No — 투명성·합법성·연구 목적의 관점에서 근거 없음
한 문으로 요약하면
「Mythos 의 아키텍처를공개 논문만으로 재현해 보았습니다」
해봤던 시리즈의 동영상과 같은 느낌입니다.
즉LLM 의 적절한 진화 과정으로 간주하는 것이 좋겠습니다.
770M 파라미터로 1.3B 와 동등한 성능이 나오면, 지금까지 작동하지 않았던 사양의 컴퓨터라도 더 똑똑한 모델이 작동할 수 있게 됩니다.
- 간단한 질문 → 빠르게 답함 (전력 절약)
- 어려운 추론 → 천천히 루프하며 생각함 (고정밀도)
이러한 인간의 사고에 가까운 동적 계산이 모델 레벨에서 실현될 수 있습니다. 현재의 모델은 간단한 질문과 어려운 질문 모두 동일한 계산량을 사용하므로, 여기서는 상당한 진화라고 생각합니다.
Mythos 가 그 라인과本当に突出した性能を出しているなら、RDT라는 가설의 설득력도 상당히 높아지며, 오픈소스 측에 구현이 퍼지는 것은 시간 문제일지도 모릅니다
Anthropic 공식 발표 값 (2026 년 4 월)
| ベンチマーク | Mythos Preview | Opus 4.6(前世代最強) |
|---|---|---|
| SWE-bench Verified(コーディング) | 93.9% | |
| 80.8% | ||
| SWE-bench Pro | 77.8% | |
| 53.4% | ||
| USAMO 2026(数学オリンピック) | 97.6% | |
| 42.3% | ||
| GPQA Diamond(大学院レベル科学) | 94.6% | |
| 91.3% | ||
| CyberGym(サイバーセキュリティ) | 83.1% | |
| 66.6% | ||
| Terminal-Bench 2.0 | 82.0% | |
| 65.4% |
OpenMythos をローカルで動かすための前提知識
- OpenMythos は重み(学習済みモデルデータ)がありません
- ローカルで動かすには、まずモデルの学習から始める必要があります
そこで、ここでは「モデルの学習」に必要な前提知識をまとめます。
LLM の重みは 浮動小数点数 で保存されます。
精度によって 1 パラメータあたりのバイト数が変わります。
| 精度 | ビット数 | バイト数/パラメータ |
|---|---|---|
| float32(FP32) | 32bit | 4 バイト |
| bfloat16(BF16) | ||
| 16bit | ||
| 2 バイト | ||
| int8(量子化) | 8bit | 1 バイト |
| int4(量子化) | 4bit | 0.5 バイト |
OpenMythos はデフォルトで
BF16 を使用しています。
推論 VRAM ≈ パラメータ数 × 2 バイト
| モデル規模 | パラメータ数 | 推論 VRAM 目安 |
|---|---|---|
| 1B モデル | 10 億 | 約 2GB |
| ... | ||
| 学習時は重み以外にも以下が必要です |
| 種別 | 用途 |
|---|---|
| 重み(weights) | モデルのパラメータ本体 |
| ... |
学習 VRAM ≈ 推論 VRAM × 3〜4 倍
3B モデルなら推論 6GB → 学習 約 18〜24GB
| バリアント | 推論 VRAM 目安 | 学習 VRAM 目安 |
|---|---|---|
| mythos_1b | 約 2GB | 約 8GB |
| ... | ||
| GPU 割当可能メモリ:最大 112GB |
| バリアント | 推論 | 学習 | 備考 |
|---|---|---|---|
| mythos_3b | 可能 | 可能 | まずここから |
| ... |
推奨:3b で動作確認し、10b で本格学習を実施してください。
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기