본문으로 건너뛰기

© 2026 Molayo

Lobste.rs헤드라인2026. 05. 22. 11:24

OpenMythos: Claude Mythos 아키텍처에 대한 이론적 재구성 (연구 문헌 기반)

요약

OpenMythos는 Claude Mythos 아키텍처를 이론적으로 재구성한 오픈 소스 구현체입니다. 순환 깊이 트랜스포머(RDT) 구조와 희소 MoE를 활용하여 연산 적응형 및 가변 깊이 추론을 구현합니다.

핵심 포인트

  • Prelude, Recurrent Block, Coda의 3단계 순환 구조
  • MLA와 GQA 간 전환 가능한 어텐션 메커니즘
  • 연산 적응형 추론을 위한 희소 MoE 설계
  • 1B부터 1T까지 다양한 파라미터 스케일 지원

면책 조항: OpenMythos는 공개적으로 사용 가능한 연구 및 추측만을 기반으로 한 독립적인 커뮤니티 주도 이론적 재구성입니다. Anthropic 또는 그들의 독점 시스템과 제휴하거나, 이를 승인하거나, 연결되어 있지 않습니다.

OpenMythos는 Claude Mythos 모델에 대한 오픈 소스 이론적 구현체입니다. 이 모델은 세 단계로 구성된 순환 깊이 트랜스포머 (Recurrent-Depth Transformer (RDT))를 구현합니다: Prelude (트랜스포머 블록), 루프 형태의 Recurrent Block (max_loop_iters까지), 그리고 마지막 Coda 단계입니다. 어텐션 (Attention)은 MLA와 GQA 사이에서 전환이 가능하며, 피드포워드 (feed-forward)는 연산 적응형 (compute-adaptive) 및 가변 깊이 추론 (depth-variable reasoning) 탐색에 이상적인 라우팅된 전문가(routed experts)와 공유된 전문가(shared experts)를 포함하는 희소 MoE (sparse MoE)를 사용합니다.

설치 (Installation)

pip install open-mythos

#uv pip install open-mythos

GQAttention에서 Flash Attention 2를 활성화하려면 (CUDA 및 빌드 도구 필요):

pip install open-mythos[flash]

사용법 (Usage)


import torch
from open_mythos.main import OpenMythos, MythosConfig
...

모델 변체 (Model Variants)

1B에서 1T 파라미터까지 사전 구성된 스케일:

from open_mythos import (
    mythos_1b,
    mythos_3b,
...
변체 (Variant)dim전문가 (Experts)expert_dim루프 반복 (Loop iters)컨텍스트 (Context)최대 출력 (Max output)
mythos_1b2048642048164k4k
...

학습 (Training)

FineWeb-Edu 데이터셋을 사용한 3B 모델의 학습 스크립트는 training/3b_fine_web_edu.py에 있습니다.

단일 GPU:

python training/3b_fine_web_edu.py

멀티 GPU (GPU 개수 자동 감지):

torchrun --nproc_per_node=$(python -c "import torch; print(torch.cuda.device_count())") training/3b_fine_web_edu.py

주요 설계 선택 사항:

기능 (Feature)세부 사항 (Detail)
옵티마이저 (Optimizer)AdamW
...

문서 (Documentation)

페이지 (Page)설명 (Description)
docs/open_mythos.mdOpenMythos 클래스에 대한 전체 API 참조 — 생성자, forward, generate, 모든 하위 모듈, 설정 참조 및 사용 예시
docs/datasets.md모델 크기별 토큰 예산 가이드가 포함된 권장 학습 데이터셋

핵심 가설 (The Central Hypothesis)

핵심 가설 (The Central Hypothesis)

Claude Mythos는 순환 깊이 트랜스포머 (Recurrent-Depth Transformer, RDT) — 또는 루프형 트랜스포머 (Looped Transformer, LT)라고도 불리는 구조로 의심됩니다. 수백 개의 고유한 레이어를 쌓는 대신, 레이어의 일부를 재사용하여 하나의 순전파 (forward pass) 과정 동안 여러 번 반복 실행합니다. 동일한 가중치 (weights). 더 많은 루프. 더 깊은 사고.

이것은 사고의 사슬 (chain-of-thought)이 아닙니다. 중간 토큰 출력은 존재하지 않습니다. 이 모든 추론은 단일 순전파 (forward pass) 내부에서, 연속적인 잠재 공간 (continuous latent space) 내에서 침묵 속에 이루어집니다.


아키텍처 (Architecture)

루프형 트랜스포머 (looped transformer)는 레이어를 세 가지 기능 블록으로 나눕니다:

입력 (Input)
  ↓
[서곡 P (Prelude P)]        — 표준 트랜스포머 레이어, 1회 실행
...

각 루프 단계 $t$에서의 순환 블록 업데이트 규칙:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

여기서:

  • h_t는 루프 $t$ 이후의 은닉 상태 (hidden state)
  • e는 인코딩된 입력 (서곡(Prelude)으로부터 전달됨)이며, 매 루프마다 주입됨
  • AB는 학습된 주입 파라미터 (injection parameters)
  • 트랜스포머 (Transformer) 블록은 평소와 같이 어텐션 (attention)과 MLP를 적용함

매 단계에서 e를 주입하는 것이 모델이 표류 (drifting)하는 것을 방지하는 핵심입니다. 이는 전체 순환 깊이 (recurrence depth) 동안 원래의 입력 신호를 유지시켜 줍니다.

전체 구현은 open_mythos/main.py에 있습니다. 상세한 API 워크스루 (walkthrough), 설정 옵션 및 사용 예시는 `OpenMythos 클래스 참조 문서를 확인하세요.

어텐션 구현 (Attention Implementations)

어텐션 레이어는 cfg.attn_type을 통해 전환할 수 있습니다:

옵션클래스설명
"gqa"GQAttentionGrouped Query Attention (Ainslie et al., 2023) — Q 헤드보다 적은 수의 KV 헤드(n_kv_heads < n_heads)를 사용하여 KV-캐시 (KV-cache) 메모리를 n_heads / n_kv_heads만큼 절감합니다. flash-attn>=2.8.3이 설치된 경우 Flash Attention 2 (Dao et al., 2023)를 사용합니다: GQA는 네이티브로 처리되며 (KV 헤드 확장 없음), I/O 바운드 (I/O-bound)에 최적화되어 있습니다. 패키지가 없는 경우 수동 스케일드 닷 프로덕트 어텐션 (scaled dot-product attention)으로 투명하게 폴백(fallback)됩니다.
"mla"MLAttentionMulti-Latent Attention (DeepSeek-V2) — 전체 K/V 대신 압축된 KV 잠재 변수 (kv_lora_rank)를 캐싱하며, 위치 인지 압축을 위해 RoPE 분할 / RoPE 미적용 헤드 차원을 사용합니다.

RoPE는 캐싱 전에 Q와 K에 적용되므로, 캐싱된 값은 검색 시 재회전(re-rotated)할 필요가 없습니다.


이것이 Mythos를 설명하는 이유

1. 체계적 일반화 (Systematic Generalization)

바닐라 트랜스포머 (Vanilla transformers)는 훈련 중에 본 적 없는 방식으로 지식을 결합하는 데 실패합니다. 루프형 트랜스포머 (Looped transformers)는 이 테스트를 통과합니다. 이러한 능력은 3단계 그로킹 (grokking) 과정을 통해 나타납니다:

  1. 암기 (Memorization) — 모델이 훈련 분포에 적합됨
  2. 분포 내 일반화 (In-distribution generalization) — 모델이 알려진 조합을 처리함
  3. 체계적 일반화 (Systematic generalization) — 모델이 분포 외 (OOD)의 새로운 조합을 갑작스럽고 급격하게 처리함

이것이 Mythos가 새로운 질문에 대해 다른 모델들과 질적으로 다르게 느껴지는 이유입니다. 즉, 능력이 점진적으로 나타나는 것이 아니라 상전이 (phase-transition)를 통해 나타납니다.

2. 깊이 외삽 (Depth Extrapolation)

5-홉 (5-hop) 추론 체인으로 훈련하고, 10-홉으로 테스트합니다. 바닐라 트랜스포머는 실패합니다. 루프형 트랜스포머는 더 많은 추론 시간 루프 (inference-time loops)를 실행함으로써 성공합니다. 이는 Mythos가 명시적인 사고의 사슬 (chain-of-thought) 없이도 깊은 구성적 문제 (다단계 수학, 장기 계획, 계층적 논증)를 처리한다는 관찰 결과와 직접적으로 연결됩니다.

추론 시 더 많은 루프 = 더 깊은 추론 체인 = 더 어려운 문제 해결.

3. 암묵적 사고의 사슬로서의 잠재적 사고 (Latent Thoughts as Implicit Chain-of-Thought)

각 루프 반복(loop iteration)은 사고의 사슬 (Chain-of-Thought, CoT)의 한 단계와 기능적으로 동일하지만, 토큰 공간 (token space)이 아닌 연속적인 잠재 공간 (continuous latent space)에서 작동합니다. T번의 루프를 실행하는 루프 모델은 암묵적으로 T단계의 CoT 추론을 시뮬레이션합니다. 이는 공식적으로 증명되었습니다 (Saunshi et al., 2025).

나아가, 이산적인 토큰 출력과 달리 연속적인 잠재 사고 (continuous latent thoughts)는 여러 가지 대안적인 다음 단계들을 동시에 인코딩할 수 있습니다. 이를 통해 단일하게 결정된 추론 경로가 아니라, 추론 공간에 대한 너비 우선 탐색 (breadth-first search)에 더 가까운 동작이 가능해집니다. 모델은 수렴하기 전, 각 순전파 (forward pass) 단계 내부에서 효과적으로 많은 가능한 방향들을 탐색합니다.

4. 파라미터 폭발의 부재 (No Parameter Explosion)

k개의 레이어를 가진 루프 모델을 L번 실행하면, k개의 레이어에 해당하는 파라미터만으로 kL 레이어 규모의 비루프 모델과 동일한 품질을 달성합니다. Mythos 규모의 배포에서는 이 점이 매우 중요합니다:

  • 메모리 점유율 (Memory footprint)이 추론 깊이에 따라 증가하지 않음
  • 추론 시간 연산량 (Inference-time compute)이 모델 크기가 아닌 루프 횟수에 따라 확장됨
  • 이는 파라미터 측면에서 더 깊은 추론을 "무료"로 만들어 줌

안정성 문제 (그리고 그것이 해결되었을 가능성이 높은 방법)

루프 모델을 학습시키는 것은 악명 높을 정도로 불안정합니다. 두 가지 실패 모드가 지배적입니다:

  • 잔차 폭발 (Residual explosion) — 은닉 상태 (hidden state) h_t가 루프를 거치며 무한히 커짐
  • 손실 급증 (Loss spikes) — 주입 파라미터 (injection parameters)의 큰 스펙트럼 노름 (spectral norms)으로 인해 학습이 갑자기 발산함

동역학계 관점 (The Dynamical Systems View)

루핑 (looping)을 잔차 스트림 (residual stream) 상의 이산 선형 시불변 (discrete linear time-invariant, LTI) 동역학계로 재구성합니다. 비선형 트랜스포머 (Transformer)의 기여를 무시하면, 재귀식은 다음과 같습니다:

h_{t+1} = A·h_t + B·e

이 LTI 시스템의 경우, 안정성은 전적으로 A의 **스펙트럼 반지름 (spectral radius)**에 의해 결정됩니다:

  • ρ(A) < 1 → 안정적, 수렴
  • ρ(A) ≥ 1 → 불안정, 발산

경험적으로, 발산하는 모든 학습 실행은 ρ(A) ≥ 1을 학습합니다. 수렴하는 모든 실행은 ρ(A) < 1을 유지합니다.

해결책 (The Fix)

구조적으로 (by construction) 안정성이 보장되도록 주입 파라미터를 제한합니다:

  1. $A$를 연속적인 음의 대각 행렬 (continuous negative diagonal matrix)로 파라미터화합니다.
  2. ZOH/Euler 스킴을 사용하여 이산화 (Discretize) 합니다: A_discrete = exp(Δt · A_continuous)
  3. 학습 가능한 스칼라 Δt를 사용하여 A := Diag(-exp(log_A))를 통해 음수성을 강제 (Enforce) 합니다.
  4. 이를 통해 학습률 (learning rate)이나 배치 노이즈 (batch noise)에 관계없이 항상 ρ(A) < 1이 성립하도록 보장합니다.

결과적으로, 루프형 모델 (looped model)은 하이퍼파라미터 (hyperparameter) 선택에 대해 훨씬 더 견고해지며, 높은 학습률에서도 깔끔하게 학습됩니다. 이것이 Parcae 아키텍처 (Prairie et al., 2026)이며, Anthropic이 Mythos를 학습 가능하게 만들기 위해 사용했을 가능성이 가장 높은 솔루션 클래스를 나타냅니다.


루프형 모델을 위한 스케일링 법칙 (Scaling Laws for Looped Models)

Parcae는 루프형 학습 (looped training)에 대한 최초의 예측 가능한 스케일링 법칙 (scaling laws)을 확립합니다:

  • 학습 (Training): 파라미터가 고정된 상태에서 고정된 FLOP 예산 내에서는, 평균 재귀 (mean recurrence)를 늘리고 토큰 수 (token count)를 줄이는 것이 더 많은 데이터로 최소한의 루프를 사용하여 학습하는 것보다 더 낮은 손실 (loss)을 산출합니다. 최적의 재귀와 최적의 토큰 수는 모두 규모에 관계없이 일관된 지수를 가진 **멱법칙 (power laws)**을 따릅니다.
  • 추론 (Inference): 테스트 시간 (test-time) 루프가 많아질수록 **예측 가능하고 포화되는 지수적 감쇠 (predictable, saturating exponential decay)**를 따르며 품질이 향상됩니다. 즉, 이득은 실재하지만 점차 감소합니다. 이는 Chain-of-Thought의 추론 시간 스케일링 (inference-time scaling)과 유사합니다.

770M 파라미터에서 루프형 모델은 동일한 데이터로 학습된 1.3B 고정 깊이 Transformer의 다운스트림 품질 (downstream quality)을 달성합니다. 즉, 동일한 품질을 위해 약 절반의 파라미터만 사용하는 것입니다.

Mythos에 적용하면: 만약 이러한 스케일링 법칙에 따라 학습된다면, Mythos는 겉으로 보이는 것보다 훨씬 더 파라미터 효율적 (parameter-efficient)일 수 있으며, 그 외견상의

루프(loop) 전반에 걸쳐 어떠한 위치 신호(positional signal)도 없다면, 동일한 가중치(weights)가 초기 단계의 패턴 매칭(pattern matching)과 후기 단계의 정교화(refinement)를 모두 처리해야 하며, 이는 매우 엄격한 제약 조건이 됩니다. 각 단계에서 입력과 함께 주입되는 **루프 인덱스의 RoPE와 유사한 임베딩 (RoPE-like embedding of the loop index)**은, 마치 RoPE가 동일한 어텐션 헤드(attention heads)가 서로 다른 시퀀스 위치에서 다르게 동작할 수 있게 하는 것과 유사하게, 동일한 파라미터가 반복(iteration)에 따라 기능적으로 구별되는 연산을 수행할 수 있도록 해줄 것입니다.

만약 Mythos가 이 기술을 사용한다면, 각 루프는 단순한 반복이 아니라 가중치를 공유하면서도 서로 다른 표현 체계(representational regimes)에서 작동하는 별개의 계산 단계(computational phase)가 됩니다. 이는 파라미터 수를 늘리지 않고도 순환 블록(recurrent block)의 표현력(expressiveness)을 실질적으로 증가시킬 것입니다.


과잉 사고 문제 (The Overthinking Problem)

루프가 많다고 해서 항상 더 좋은 것은 아닙니다. 특정 깊이를 넘어서면 과도한 순환은 예측 성능을 저하시키며 (degrades predictions), 은닉 상태(hidden state)가 정답을 지나 노이즈(noise) 영역으로 표류하게 됩니다. 이것이 바로 "과잉 사고 (overthinking)" 실패 모드입니다.

오리지널 Universal Transformer (Dehghani et al., 2018)는 이를 적응형 계산 시간 (Adaptive Computation Time, ACT) 중단 메커니즘으로 해결했습니다. 이는 각 위치(position)마다 학습된 스칼라(scalar)를 사용하여 루프를 언제 멈출지를 동적으로 결정하는 방식입니다. 처리하기 어려운 위치는 더 많은 계산을 할당받고, 단순한 토큰은 조기에 중단됩니다.

Mythos 역시 거의 확실하게 이와 유사한 버전을 가지고 있을 것입니다. 모델은 모든 입력에 대해 단순히 최대 루프 횟수를 실행할 수 없으며, 정답이 수렴(converged)했을 때를 판단할 학습된 신호가 필요합니다. 또한 ACT 메커니즘은 특정 가정하에 모델을 **튜링 완전 (Turing-complete)**하게 만들며, 이는 모델이 해결할 수 있는 문제의 클래스(class)에 대한 이론적 함의를 갖습니다.


AI 자동 생성 콘텐츠

본 콘텐츠는 Lobste.rs AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0