본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 05. 08. 10:07

OpenMythosとは何者なのか?

요약

이 글은 Anthropic의 최신 모델 'Capybara'(코드명 Mythos)에 대한 공개된 학술 논문을 바탕으로, 그 아키텍처를 추론하고 재현하려는 오픈소스 프로젝트인 OpenMythos에 대해 설명합니다. 핵심 내용은 기존 트랜스포머가 레이어를 쌓는 방식과 달리, Recurrent-Depth Transformer(RDT)라는 루프형 구조를 사용하여 적은 파라미터로도 깊고 효율적인 추론이 가능하며, 이 기술을 통해 LLM의 메모리 효율성과 추론 능력을 혁신할 수 있다는 것입니다. OpenMythos는 이러한 최첨단 아키텍처가 오픈소스 LLM 분야에 적용될 미래를 제시합니다.

핵심 포인트

  • OpenMythos는 Anthropic의 최고 모델 'Capybara'(Mythos)의 공개 논문 기반 추론 및 재현 프로젝트입니다.
  • 핵심 기술은 Recurrent-Depth Transformer (RDT)로, 트랜스포머 레이어를 쌓는 대신 같은 블록을 반복(루프)하여 깊은 추론을 구현합니다.
  • RDT는 적은 파라미터 수(예: 절반 수준)로도 높은 성능을 달성할 수 있어 메모리 효율성이 높습니다.
  • 전통적인 CoT(Chain-of-Thought)가 토큰 출력을 통해 컨텍스트를 늘리는 것과 달리, RDT는 잠재 공간에서 내부 루프를 돌려 추론하므로 컨텍스트 낭비가 없습니다.
  • 이러한 아키텍처의 발전은 오픈소스 LLM에서도 고성능 모델 구현 가능성을 높여, 더 작고 효율적인 '지능'을 만들 수 있음을 시사합니다.

OpenMythos を ROCm に移植してみたのでその時に感じた疑問や、なんとなくこうなんじゃね?感をまとめてみた。

これをスライドにしたものは Speaker Deck にアップロードしてるので、好きなほうを参照してください。

OpenMythos はこっち

Anthropic が 2026 年 4 月 7 日に正式発表した、実在するフロンティア AI モデル「Capybara」(内部コードネーム「Mythos」)

  • Opus を超える
    新たなモデルティアとして位置づけられた Anthropic 史上最強のモデルです - 2026 年 3 月 26 日にメディア(Fortune)経由でリークされ、同年 4 月 7 日に正式発表されました

  • Project Glasswingのもとで限定公開されており、一般・公開 API では利用できません - 参加 12 社:AWS、Apple、Google、Microsoft、NVIDIA、Broadcom、Cisco、CrowdStrike、JPMorganChase、Linux Foundation、Palo Alto Networks など + 40 以上の追加組織

  • サイバーセキュリティ能力が突出:Firefox の脆弱性 271 件を自律的に発見し、32 ステップの企業ネットワーク攻撃シミュレーションを完遂しました(Anthropic 公式発表) - アーキテクチャの
    内部実装詳細は非公開です → これが OpenMythos の出発点です

公開済み学術研究をもとに Mythos のアーキテクチャを推測・再現しようとするオープンソース LLM

項目内容
名称OpenMythos
...
訓練データFineWeb-Edu(公開データセット)
GitHub公開から数週間で 12,000 以上のスター・約 2,700 フォーク

※ 重み(trained weights)は含みません。実行には別途大規模な訓練が必要です。

  • Anthropic は「一般公開に向けたサイバーセキュリティ上のセーフガードが整うまで Mythos (Capybara) を公開しない」と説明しています。$1 億相当のクレジットを Glasswing 参加組織に提供しました。
  • 本スライドで言及する
    OpenMythosは「Mythos(Capybara)はおそらくこういうアーキテクチャではないか」という考察を、公開論文のみを用いて実証しようとするオープンソース PoC です。

つまり、OpenSource LLMにおいても、Capybara と同様のアーキテクチャを採用できる未来が近いと考えられます。

ローカルでも思考トークンに塗りつぶされない、とても賢い LLM が作られる可能性があります(省メモリ!)

OpenMythos のアーキテクチャは同じブロックを使い回すので、レイヤーを重ねる通常の Transformer より重み自体が少ないです。

Recurrent-Depth Transformer(RDT)=ループ型 Transformer

通常の Transformer がレイヤーを「積み重ねる」のに対し、

RDT は同じブロックを T 回繰り返すことで深い推論を実現します。

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
  • h_t:ループ t 回目の隠れ状態 -
    e:入力のエンコード(毎ループ注入) -
    A, B:学習済みパラメータ(スペクトル半径 < 1 で安定化)

各ループ ≈ Chain-of-Thought の 1 ステップ(ただし潜在空間で実施)

Mythos の特徴(新問題への高い推論力・事実記憶のムラ)が
ループ型アーキテクチャの特性(記憶より合成が得意)と一致することが仮説の根拠です。

Parcae 論文(Prairie et al., 2026)より

770M パラメータのループ型モデルが、同じデータで学習した
1.3B 固定深度 Transformer と同等の性能を発揮します。

つまり、約半分のパラメータ数で同じ品質を実現できます!

  • モデルの重みファイルが小さくなり、ストレージ・VRAM ロードが軽くなります
  • 推論時のメモリ効率が高くなります
  • ただし学習時はループ数分のアクティベーションが積まれるため、トレードオフがあります
-重み(パラメータ)学習時アクティベーション
固定深度 Transformer多い通常
RDT(ループ型)少ないループ数分増えます

通常の Chain-of-Thought(言語空間)

  • 推論ステップをトークンとして出力する必要があります
  • 「まず〜を考えます。次に〜を…」という文字列を生成しながら考えます
  • 生成したトークン分だけコンテキスト長が伸びます → KV キャッシュが膨れます
  • ユーザーには思考過程が見えます

RDT の潜在空間推論

  • トークンを一切出力せずに、隠れ状態 h_t を内部でループさせて「考えます」 - 外から見ると一回のフォワードパスの中で完結します
  • コンテキスト長が増えません
CoT (言語空間)RDT (잠재 공간)
추론의 장소토큰 출력으로 외부로 내보내기숨겨진 상태의 내부 루프
...
동일한 계산 비용으로 더 깊이 생각할 수 있다」또는「컨텍스트를 낭비하지 않고 추론할 수 있다」가 본질에 가깝다고 생각합니다.
기술논문공개된 년도
Recurrent-Depth TransformerLoop, Think, & Generalize2025
...
Anthropic 에서

정보를 도난당한 것이나, 가중치를 누설한 것도 아닙니다.

구성 요소논문공개된 년도
MLA (KV 캐시 1/10 압축)DeepSeek-V22024
...
주장될 수 있는 위협 시나리오와 이에 대한 사실
주장사실
「Claude 의 내부에서 도난했다」모든 소스 코드 공개, 공개 논문만 참조함
...이론적 추측이며, Anthropic 공식 정보가 아닙니다
「악용 가능한 강력한 AI」현재는 연구 목적의 실험적 구현·무가중치입니다

주의: Firefox 271 건의 취약점 발견 및 32 단계 공격은

OpenMythos 가 아닌 Anthropic 의 Mythos Preview 본체의 실적입니다 (Anthropic 공식 발표).

OpenMythos 는 그 아키텍처 추측을 시도하는 PoC 에 불과합니다.

OpenMythos 는「숨겨야 할 것이 없다」설계입니다**

  • 소스 코드 100% 공개 (GitHub)
  • 라이선스:
    MIT(상업적 이용·변경·재분배 자유) - PyPI 에서 누구나 설치 및 확인 가능
  • 훈련 스크립트·하이퍼파라미터도 모두 공개되었습니다

「위협」이 될 존재가 자신의 코드를 전적으로 공개한다는 것은 생각하기 어렵습니다.

오히려 투명성이 바로 이 프로젝트의 본질입니다.

OpenMythos 는 아직「연구 프로토타입」단계입니다

  • 버전:
    0.5.0 alpha - 체크포인트 없이 실행하면 의미 없는 출력이 반환됩니다 (랜덤 초기화 상태)
  • 실용화는 대규모 훈련이 필요합니다 (기본 목표: 30B 토큰)
  • 기존 Claude 나 Mythos 와는
    완전히 다른 것: 가중치도 훈련도 공유하지 않았습니다

기존 모델의 아키텍처를 추측 및 재현하는 연구는 합법적이며 정당합니다

  • Google 의 논문에서 Facebook 이 구현 → Meta LLaMA
  • OpenAI 의 GPT 논문에서 각사가 독자 구현 → 많은 오픈 LLM
  • DeepSeek 가 Transformer 개선을 공개 → 각 프로젝트가 채택

OpenMythos 도 같은 맥락에 있습니다

공개 정보를 바탕으로 아키텍처를 추측 및 구현하는 것은,

AI 연구 커뮤니티의 표준적인 활동입니다.

현재 시점에서는위협이 되지 않습니다.

다음의 이유 때문입니다.

정보원은 모두 공개 논문— 기밀 누설·도용은 아닙니다 —
alpha 버전·연구 목적·무가중치— Mythos 의 대체품이 될 수 없습니다 —
아키텍처 연구는 정당— AI 연구의 표준적인 실천입니다

OpenMythos 는「Mythos 의 아키텍처를 공개 논문에서 이론적으로 추측 및 재현하려는 오픈소스 LLM」이며, 투명성이 높은 학술 프로젝트입니다.

그러나,AI/LLM 전체의 진화를 고려한 보안 대응 제도의 강화는필수라고 생각합니다.

현재 시점에서는 OpenMythos 가 위협이 아니지만, 조직 자체가 LLM 의 진화에 뒤처지면 위협이 될 수 있습니다

・・・일지도 모릅니다.

Claude Mythos = Anthropic 이 2026 년 4 월 7 일에 공식 발표한 실제 존재의 최강 프론티어 모델입니다 (Mythos 는 내부 코드 네임이며, 공개 모델명은 Capybara).

Project Glasswing 의 밑에서 제한적 공개 중입니다.아키텍처 내부는 비공개.

OpenMythos = 그 비공개 아키텍처를 공개 논문에서 추측 및 재현하려는 MIT 라이선스의 PoC LLM

위협인가?= No — 투명성·합법성·연구 목적의 관점에서 근거 없음

한 문으로 요약하면

「Mythos 의 아키텍처를공개 논문만으로 재현해 보았습니다」

해봤던 시리즈의 동영상과 같은 느낌입니다.

LLM 의 적절한 진화 과정으로 간주하는 것이 좋겠습니다.

770M 파라미터로 1.3B 와 동등한 성능이 나오면, 지금까지 작동하지 않았던 사양의 컴퓨터라도 더 똑똑한 모델이 작동할 수 있게 됩니다.

  • 간단한 질문 → 빠르게 답함 (전력 절약)
  • 어려운 추론 → 천천히 루프하며 생각함 (고정밀도)

이러한 인간의 사고에 가까운 동적 계산이 모델 레벨에서 실현될 수 있습니다. 현재의 모델은 간단한 질문과 어려운 질문 모두 동일한 계산량을 사용하므로, 여기서는 상당한 진화라고 생각합니다.

Mythos 가 그 라인과本当に突出した性能を出しているなら、RDT라는 가설의 설득력도 상당히 높아지며, 오픈소스 측에 구현이 퍼지는 것은 시간 문제일지도 모릅니다

Anthropic 공식 발표 값 (2026 년 4 월)

ベンチマークMythos PreviewOpus 4.6(前世代最強)
SWE-bench Verified(コーディング)93.9%
80.8%
SWE-bench Pro77.8%
53.4%
USAMO 2026(数学オリンピック)97.6%
42.3%
GPQA Diamond(大学院レベル科学)94.6%
91.3%
CyberGym(サイバーセキュリティ)83.1%
66.6%
Terminal-Bench 2.082.0%
65.4%

OpenMythos をローカルで動かすための前提知識

  • OpenMythos は重み(学習済みモデルデータ)がありません
  • ローカルで動かすには、まずモデルの学習から始める必要があります

そこで、ここでは「モデルの学習」に必要な前提知識をまとめます。

LLM の重みは 浮動小数点数 で保存されます。

精度によって 1 パラメータあたりのバイト数が変わります。

精度ビット数バイト数/パラメータ
float32(FP32)32bit4 バイト
bfloat16(BF16)
16bit
2 バイト
int8(量子化)8bit1 バイト
int4(量子化)4bit0.5 バイト

OpenMythos はデフォルトで

BF16 を使用しています。

推論 VRAM ≈ パラメータ数 × 2 バイト
モデル規模パラメータ数推論 VRAM 目安
1B モデル10 億約 2GB
...
学習時は重み以外にも以下が必要です
種別用途
重み(weights)モデルのパラメータ本体
...
学習 VRAM ≈ 推論 VRAM × 3〜4 倍

3B モデルなら推論 6GB → 学習 約 18〜24GB

バリアント推論 VRAM 目安学習 VRAM 目安
mythos_1b約 2GB約 8GB
...
GPU 割当可能メモリ:最大 112GB
バリアント推論学習備考
mythos_3b可能可能まずここから
...

推奨:3b で動作確認し、10b で本格学習を実施してください。

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0