OpenMythos：开源复现Claude Mythos架构，循环深度Transformer的革命性实现

前言

2026年4月，一个名为OpenMythos的开源项目在GitHub上悄然走红，短短几天获得了近万颗星标。

这个由Swarms AI创始人Kye Gomez发布的项目，声称要对Anthropic的Claude Mythos模型架构进行理论重建。

那么，OpenMythos到底是什么？它的核心技术原理是什么？如何部署和使用？让我们一起来深入了解。

一、OpenMythos是什么？

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25


┌─────────────────────────────────────────────────────────────────┐
│                      OpenMythos是什么？                            │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   OpenMythos = 开源的Claude Mythos架构理论重建                    │
│                                                                 │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                                                         │   │
│   │   由Swarms AI创始人 Kye Gomez 于2026年4月发布          │   │
│   │                                                         │   │
│   │   ✓ 完全开源（MIT许可证）                               │   │
│   │   ✓ 基于公开研究文献从零构建                            │   │
│   │   ✓ 支持1B到1T参数的多种规模                          │   │
│   │   ✓ 支持pip安装                                        │   │
│   │                                                         │   │
│   │   GitHub: 9,400+ Stars                                │   │
│   │   语言: Python + PyTorch                               │   │
│   │                                                         │   │
│   └─────────────────────────────────────────────────────────┘   │
│                                                                 │
│   ⚠️ 免责声明：                                                │
│   这是一个独立的、社区驱动的理论重建项目                          │
│   与Anthropic公司没有任何关联或认可                              │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

1.1 核心主张

OpenMythos的理论核心是：Claude Mythos采用了循环深度Transformer（Recurrent-Depth Transformer, RDT）架构。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29


┌─────────────────────────────────────────────────────────────────┐
│                    传统Transformer vs 循环深度Transformer           │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   传统Transformer：                                             │
│   ┌───┐ ┌───┐ ┌───┐ ┌───┐ ┌───┐ ┌───┐                      │
│   │ L1 │ │ L2 │ │ L3 │ │ L4 │ │ L5 │ │ L6 │  ... 100+层   │
│   └───┘ └───┘ └───┘ └───┘ └───┘ └───┘                      │
│       │     │     │     │     │     │                         │
│       └─────┴─────┴─────┴─────┴─────┴─────→  输出            │
│       每个层都有不同的权重                                       │
│                                                                 │
│   循环深度Transformer：                                         │
│   ┌──────────────────────────────────────────┐                │
│   │                                          │                │
│   │   [Layer共享权重] ←──────────→ 循环16次 │                │
│   │                                          │                │
│   └──────────────────────────────────────────┘                │
│       │                                          │               │
│       │  ┌───┐  ┌───┐  ┌───┐  ┌───┐  ...   │               │
│       └──┤ 1  ├──┤ 2  ├──┤ 3  ├──┤ 4  ├─... │               │
│          └───┘  └───┘  └───┘  └───┘         │               │
│             ↑        ↑        ↑        ↑       │               │
│             └────────┴────────┴────────┴───────┘               │
│                    相同权重，重复使用                           │
│                                                                 │
│   优势：770M参数的RDT ≈ 1.3B标准Transformer能力                │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

二、核心技术原理

2.1 三段式架构

OpenMythos将循环深度Transformer分为三个功能块：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45


┌─────────────────────────────────────────────────────────────────┐
│                    三段式架构图解                                  │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│                         输入 (Input)                              │
│                            │                                    │
│                            ▼                                    │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │                    Prelude (前导层)                      │  │
│   │                                                         │  │
│   │   ┌───┐ ┌───┐ ┌───┐                                   │  │
│   │   │ L1 │ │ L2 │ │ L3 │  ← 标准Transformer层           │  │
│   │   └───┘ └───┘ └───┘  ← 只运行一次                     │  │
│   │                                                         │  │
│   └─────────────────────────────────────────────────────────┘  │
│                            │                                    │
│                            ▼                                    │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │                  Recurrent Block (循环块)               │  │
│   │                                                         │  │
│   │              循环 T 次 (可配置，max_loop_iters)          │  │
│   │                                                         │  │
│   │   ┌───┐  ←──┐   ┌───┐  ←──┐   ┌───┐  ←──┐           │  │
│   │   │ R1 │──┐    │ R2 │──┐    │ R3 │──┐    │ ...      │  │
│   │   └───┘  │    └───┘  │    └───┘  │    │              │  │
│   │           │            │            │    │               │  │
│   │           └────────────┴────────────┘    │               │  │
│   │                  隐藏状态 h_t 更新                        │  │
│   │                                                         │  │
│   └─────────────────────────────────────────────────────────┘  │
│                            │                                    │
│                            ▼                                    │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │                     Coda (尾声层)                        │  │
│   │                                                         │  │
│   │   ┌───┐ ┌───┐ ┌───┐                                   │  │
│   │   │ C1 │ │ C2 │ │ C3 │  ← 标准Transformer层           │  │
│   │   └───┘ └───┘ └───┘  ← 只运行一次                     │  │
│   │                                                         │  │
│   └─────────────────────────────────────────────────────────┘  │
│                            │                                    │
│                            ▼                                    │
│                        输出 (Output)                              │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

2.2 循环块更新公式

循环块在每个循环步骤t的更新规则：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36


┌─────────────────────────────────────────────────────────────────┐
│                    循环块更新公式                                 │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│                      h_{t+1} = A·h_t + B·e + Transformer(h_t, e)   │
│                                                                 │
│   其中：                                                         │
│   ├── h_t  : 第t次循环后的隐藏状态                              │
│   ├── h_{t+1} : 第t+1次循环后的隐藏状态                         │
│   ├── e    : 输入编码（来自Prelude）                            │
│   ├── A, B : 可学习的注入参数                                   │
│   └── Transformer : 注意力 + MLP模块                            │
│                                                                 │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                     图解                                 │   │
│   │                                                         │   │
│   │   h_t ──────┐                                          │   │
│   │             │                                          │   │
│   │         ┌───┴───┐                                      │   │
│   │         │   A   │  ← 状态转移矩阵                       │   │
│   │         └───┬───┘                                      │   │
│   │             │                                          │   │
│   │             ▼                                          │   │
│   │         ┌─────────┐    ┌─────────┐    ┌─────────────┐  │   │
│   │         │ A·h_t  │ +  │   B·e   │ +  │Transformer │  │   │
│   │         └─────────┘    └─────────┘    │  (h_t, e)  │  │   │
│   │                                           └─────────────┘  │   │
│   │                        │                                │   │
│   │                        ▼                                │   │
│   │                    h_{t+1}                             │   │
│   │                                                         │   │
│   └─────────────────────────────────────────────────────────┘   │
│                                                                 │
│   关键点：在每个循环步骤注入输入e，防止模型偏离原始信号            │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

2.3 注意力机制选择

OpenMythos支持两种注意力机制，通过cfg.attn_type切换：

注意力类型	类名	描述
GQA	`GQAttention`	分组查询注意力，KV头少于Q头，减少KV缓存
MLA	`MLAttention`	多潜在注意力（DeepSeek-V2），压缩KV潜在向量

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27


┌─────────────────────────────────────────────────────────────────┐
│                    GQA vs MLA 对比                               │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   GQA (Grouped Query Attention)：                                │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                                                         │   │
│   │   Q头: ████ ████ ████ ████  (8个)                      │   │
│   │   K头: ████ ████              (2个，Q头的1/4)           │   │
│   │   V头: ████ ████              (2个)                    │   │
│   │                                                         │   │
│   │   KV缓存减少: 8/2 = 4倍                                  │   │
│   │                                                         │   │
│   └─────────────────────────────────────────────────────────┘   │
│                                                                 │
│   MLA (Multi-Latent Attention)：                                 │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                                                         │   │
│   │   不缓存完整K/V，而是缓存压缩的潜在向量                    │   │
│   │                                                         │   │
│   │   kv_latent_rank = 32 (可配置)                          │   │
│   │                                                         │   │
│   │   KV缓存减少: 10-20倍                                   │   │
│   │                                                         │   │
│   └─────────────────────────────────────────────────────────┘   │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

2.4 混合专家（MoE）架构

对于大规模模型，OpenMythos采用DeepSeek-V3风格的稀疏MoE：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30


┌─────────────────────────────────────────────────────────────────┐
│                    MoE架构图解                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   每个FFN层替换为MoE层：                                        │
│                                                                 │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                    Router (路由器)                      │   │
│   │                     (可学习)                            │   │
│   │                         │                              │   │
│   │           ┌─────────────┼─────────────┐                │   │
│   │           ▼             ▼             ▼                 │   │
│   │        ┌──────┐    ┌──────┐    ┌──────┐              │   │
│   │        │ E1   │    │ E2   │    │ E3   │   ...        │   │
│   │        │ Expert│    │ Expert│    │ Expert│              │   │
│   │        └───┬───┘    └───┬───┘    └───┬───┘            │   │
│   │            │             │             │                  │   │
│   │            └─────────────┼─────────────┘                  │   │
│   │                          ▼                                │   │
│   │                    输出                                   │   │
│   └─────────────────────────────────────────────────────────┘   │
│                                                                 │
│   特点：                                                        │
│   ├── Fine-grained experts：每个FFN拆分为多个小专家              │
│   ├── Top-K routing：每个token选择top-k个专家                    │
│   ├── Shared experts：常驻专家，始终激活                        │
│   │   └── 吸收跨领域通用知识（语法、基础推理）                  │
│   └── 激活比例约5%，大幅减少计算量                             │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

三、为什么这能解释Claude Mythos？

3.1 系统性泛化能力

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20


┌─────────────────────────────────────────────────────────────────┐
│                    三阶段渐进过程                                 │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   1. 记忆阶段 (Memorization)                                   │
│   │   模型拟合训练分布                                          │
│   │   ████████████████████████████████████████                 │
│   │                                                         │   │
│   │   2. 分布内泛化 (In-distribution Generalization)           │   │
│   │   模型处理已知组合                                         │
│   │   ████████████████████████████████████████████████          │
│   │                                                         │   │
│   │   3. 系统性泛化 (Systematic Generalization)               │   │
│   │   模型处理从未见过的新组合（OOD）                           │
│   │   ████████████████████████████████████████████████████      │
│   │   突然、瞬间涌现                                          │
│   │                                                         │   │
│   这就是为什么Claude Mythos在新问题上感觉与其他模型"质"不同      │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

3.2 深度外推能力

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22


┌─────────────────────────────────────────────────────────────────┐
│                    深度外推能力                                  │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   训练数据：5跳推理链                                           │
│   测试数据：10跳推理链                                         │
│                                                                 │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │                                                         │  │
│   │   传统Transformer：                                     │  │
│   │   5跳训练 ──────────────────── X ───→ 10跳测试           │  │
│   │                          失败                           │  │
│   │                                                         │  │
│   │   循环深度Transformer：                                  │  │
│   │   5跳训练 ──────────────────── ✓ ───→ 10跳测试           │  │
│   │                          通过（运行更多循环）             │  │
│   │                                                         │  │
│   └─────────────────────────────────────────────────────────┘  │
│                                                                 │
│   推理时更多循环 = 更深推理链 = 解决更难问题                    │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

3.3 潜在思维 vs 思维链

特性	思维链 (CoT)	潜在思维 (Latent Thought)
输出形式	离散token	连续隐藏状态
推理方式	单路径串行	多路径并行
表达能力	每步一个选择	每步多个备选
本质	显式推理	隐式推理

四、与传统Transformer的对比

4.1 参数效率对比

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23


┌─────────────────────────────────────────────────────────────────┐
│                    参数效率对比                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                                                         │   │
│   │   传统Transformer：                                      │   │
│   │   100层 × 每层1B参数 = 100B总参数                      │   │
│   │   推理：单次前向传播                                     │   │
│   │                                                         │   │
│   │   循环深度Transformer：                                   │   │
│   │   16层 × 每层1B参数 = 16B总参数                        │   │
│   │   推理：16次循环前向传播                                 │   │
│   │                                                         │   │
│   │   效果：相近能力，6倍参数节省                            │   │
│   │                                                         │   │
│   └─────────────────────────────────────────────────────────┘   │
│                                                                 │
│   关键数据：                                                    │
│   ├── 770M参数的RDT ≈ 1.3B标准Transformer                    │
│   └── 验证步骤快2.67倍                                         │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

4.2 核心技术对比

特性	传统Transformer	OpenMythos (RDT)
权重使用	每层独立	循环共享
推理深度	固定	可变
内存占用	随层数增长	固定（不随循环增长）
推理计算	随层数线性增长	随循环次数线性增长
KV缓存	完整存储	可压缩（MLA减少10-20倍）

五、稳定性问题与解决方案

5.1 训练不稳定性

循环模型训练有两个主要失败模式：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25


┌─────────────────────────────────────────────────────────────────┐
│                    训练失败模式                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   1. 残差爆炸 (Residual Explosion)                              │
│   │   h_t在循环中无限增长                                      │
│   │   0.5 → 1.2 → 3.8 → 99.7 → ∞                           │
│   │                                                         │   │
│   │   2. 损失突变 (Loss Spikes)                               │   │
│   │   训练突然发散                                            │
│   │   由于注入参数的大谱范数                                   │
│   │                                                         │   │
│   ┌───────────────────────────────────────────────────────┐   │
│   │                                                       │   │
│   │   解决方案：LTI约束（线性时不变系统）                   │   │
│   │                                                       │   │
│   │   h_{t+1} = A·h_t + B·e                              │   │
│   │                                                       │   │
│   │   稳定性由A的谱半径决定：                               │   │
│   │   ρ(A) < 1 → 稳定，收敛                               │   │
│   │   ρ(A) ≥ 1 → 不稳定，发散                             │   │
│   │                                                       │   │
│   └───────────────────────────────────────────────────────┘   │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

5.2 Parcae架构的解决方案

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23


┌─────────────────────────────────────────────────────────────────┐
│                    Parcae稳定化方案                               │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   核心思想：约束注入参数，使稳定性由构造保证                      │
│                                                                 │
│   步骤：                                                        │
│   ├── 1. 将A参数化为连续负对角矩阵                              │
│   │   A = Diag(-exp(log_A))                                   │
│   │                                                         │   │
│   ├── 2. 使用ZOH/Euler方案离散化                               │
│   │   A_discrete = exp(Δt · A_continuous)                     │
│   │                                                         │   │
│   ├── 3. 通过可学习的标量Δt强制负性                            │
│   │                                                         │   │
│   └── 4. 这确保ρ(A) < 1始终成立                                │
│       无论学习率或批噪声如何                                    │
│                                                                 │
│   结果：                                                        │
│   ├── 循环模型对超参数选择显著更鲁棒                            │
│   └── 即使在高学习率下也能正常训练                              │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

六、模型规模配置

6.1 预配置模型

OpenMythos提供从1B到1T参数的多种预配置规模：

模型	dim	Experts	expert_dim	循环次数	上下文	最大输出
`mythos_1b`	2048	64	2048	16	4K	4K
`mythos_3b`	3072	64	4096	16	4K	4K
`mythos_7b`	4096	128	5632	24	8K	4K
`mythos_10b`	4096	128	5632	24	8K	4K
`mythos_50b`	6144	256	9728	32	8K	4K
`mythos_100b`	8192	256	13568	32	1M	128K
`mythos_500b`	12288	512	23040	48	1M	128K
`mythos_1t`	16384	512	34560	64	1M	128K

七、快速部署与使用

7.1 安装

1
2
3
4
5


# 基础安装
pip install open-mythos

# 启用Flash Attention 2（需要CUDA）
pip install open-mythos[flash]

7.2 基本使用示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57


import torch
from open_mythos.main import OpenMythos, MythosConfig

# 选择注意力类型
attn_type = "mla"  # 或 "gqa"

# 基础配置
base = {
    "vocab_size": 1000,
    "dim": 256,
    "n_heads": 8,
    "max_seq_len": 128,
    "max_loop_iters": 4,
    "prelude_layers": 1,
    "coda_layers": 1,
    "n_experts": 8,
    "n_shared_experts": 1,
    "n_experts_per_tok": 2,
    "expert_dim": 64,
    "lora_rank": 8,
    "attn_type": attn_type,
}

# 根据注意力类型配置
if attn_type == "gqa":
    cfg = MythosConfig(**base, n_kv_heads=2)
else:
    cfg = MythosConfig(
        **base,
        n_kv_heads=8,
        kv_lora_rank=32,
        q_lora_rank=64,
        qk_rope_head_dim=16,
        qk_nope_head_dim=16,
        v_head_dim=16,
    )

# 创建模型
model = OpenMythos(cfg)

# 统计参数量
total = sum(p.numel() for p in model.parameters())
print(f"[{attn_type.upper()}] Parameters: {total:,}")

# 前向传播
ids = torch.randint(0, cfg.vocab_size, (2, 16))
logits = model(ids, n_loops=4)
print(f"[{attn_type.upper()}] Logits shape: {logits.shape}")

# 生成
out = model.generate(ids, max_new_tokens=8, n_loops=8)
print(f"[{attn_type.upper()}] Generated shape: {out.shape}")

# 稳定性检查
A = model.recurrent.injection.get_A()
rho = torch.linalg.eigvals(A).abs().max().item()
print(f"[{attn_type.upper()}] Spectral radius ρ(A) = {rho:.4f} (must be < 1)")

7.3 使用预配置模型

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18


from open_mythos import (
    mythos_1b,
    mythos_3b,
    mythos_7b,
    mythos_10b,
    mythos_50b,
    mythos_100b,
    mythos_500b,
    mythos_1t,
    OpenMythos,
)

# 使用7B配置
cfg = mythos_7b()
model = OpenMythos(cfg)

total = sum(p.numel() for p in model.parameters())
print(f"Parameters: {total:,}")

7.4 训练脚本

单GPU训练：

1

python training/3b_fine_web_edu.py

多GPU训练（自动检测GPU数量）：

1

torchrun --nproc_per_node=$(python -c "import torch; print(torch.cuda.device_count())") training/3b_fine_web_edu.py

训练配置：

配置项	详情
优化器	AdamW
数据集	HuggingFaceFW/fineweb-edu
分词器	openai/gpt-oss-20b via MythosTokenizer
并行	PyTorch DDP via torchrun
精度	bf16 (H100/A100)
目标	30B tokens

八、完整项目结构

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26


OpenMythos/
├── src/
│   └── open_mythos/
│       ├── main.py              # 核心模型
│       ├── config.py            # 配置类
│       ├── attention.py         # 注意力机制
│       ├── moe.py               # MoE实现
│       └── recurrent.py         # 循环块
│
├── training/
│   └── 3b_fine_web_edu.py      # 3B模型训练脚本
│
├── docs/
│   ├── open_mythos.md          # API文档
│   └── datasets.md             # 数据集指南
│
├── examples/
│   └── ...                     # 示例代码
│
├── tests/
│   └── ...                     # 测试用例
│
├── README.md
├── LICENSE
├── pyproject.toml
└── requirements.txt

九、应用场景

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26


┌─────────────────────────────────────────────────────────────────┐
│                    OpenMythos应用场景                             │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   1. 深度推理任务                                               │
│   ├── 数学证明                                                  │
│   ├── 逻辑推理                                                  │
│   ├── 多步骤规划                                               │
│   └── 代码生成                                                  │
│                                                                 │
│   2. 长上下文处理                                               │
│   ├── 长文档理解                                               │
│   ├── 代码库分析                                               │
│   └── 多轮对话                                                 │
│                                                                 │
│   3. 资源受限环境                                               │
│   ├── 边缘设备部署                                             │
│   ├── 移动端应用                                               │
│   └── 研究实验                                                 │
│                                                                 │
│   4. 研究用途                                                   │
│   ├── 循环Transformer研究                                      │
│   ├── MoE架构实验                                             │
│   └── 新架构探索                                               │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

十、总结

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32


┌─────────────────────────────────────────────────────────────────┐
│                      核心总结                                    │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   1. OpenMythos是什么？                                        │
│      → 开源的Claude Mythos架构理论重建                         │
│      → 循环深度Transformer实现                                  │
│                                                                 │
│   2. 核心架构：                                                │
│      → Prelude（前导层）+ Recurrent Block（循环块）+ Coda（尾声层）│
│      → MoE稀疏激活                                             │
│      → MLA/GQA注意力                                          │
│                                                                 │
│   3. 核心优势：                                                │
│      → 参数效率高（770M ≈ 1.3B）                              │
│      → 推理深度可调                                            │
│      → 支持隐式多跳推理                                        │
│                                                                 │
│   4. 部署方式：                                                │
│      → pip install open-mythos                                 │
│      → 提供1B-1T多种规模                                       │
│      → 支持单GPU/多GPU训练                                     │
│                                                                 │
│   5. 适用场景：                                                │
│      → 深度推理、长上下文、资源受限环境、研究                    │
│                                                                 │
│   ⚠️ 注意事项：                                                │
│      → 这是理论重建，非官方实现                                 │
│      → 性能表现待实际验证                                      │
│      → 需要足够GPU内存（建议16GB+）                            │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

参考链接

GitHub仓库：https://github.com/kyegomez/OpenMythos
Discord社区：https://discord.gg/EamjgSaEQf

如果你对循环深度Transformer或OpenMythos有任何问题，欢迎在评论区交流！