OpenMythos:开源复现Claude Mythos架构,循环深度Transformer的革命性实现

详细介绍OpenMythos的架构原理、核心特性、与传统Transformer的区别、以及如何本地部署使用

前言

2026年4月,一个名为OpenMythos的开源项目在GitHub上悄然走红,短短几天获得了近万颗星标。

这个由Swarms AI创始人Kye Gomez发布的项目,声称要对Anthropic的Claude Mythos模型架构进行理论重建。

那么,OpenMythos到底是什么?它的核心技术原理是什么?如何部署和使用?让我们一起来深入了解。


一、OpenMythos是什么?

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
┌─────────────────────────────────────────────────────────────────┐
│                      OpenMythos是什么?                            │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   OpenMythos = 开源的Claude Mythos架构理论重建                    │
│                                                                 │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                                                         │   │
│   │   由Swarms AI创始人 Kye Gomez 于2026年4月发布          │   │
│   │                                                         │   │
│   │   ✓ 完全开源(MIT许可证)                               │   │
│   │   ✓ 基于公开研究文献从零构建                            │   │
│   │   ✓ 支持1B到1T参数的多种规模                          │   │
│   │   ✓ 支持pip安装                                        │   │
│   │                                                         │   │
│   │   GitHub: 9,400+ Stars                                │   │
│   │   语言: Python + PyTorch                               │   │
│   │                                                         │   │
│   └─────────────────────────────────────────────────────────┘   │
│                                                                 │
│   ⚠️ 免责声明:                                                │
│   这是一个独立的、社区驱动的理论重建项目                          │
│   与Anthropic公司没有任何关联或认可                              │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

1.1 核心主张

OpenMythos的理论核心是:Claude Mythos采用了循环深度Transformer(Recurrent-Depth Transformer, RDT)架构

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
┌─────────────────────────────────────────────────────────────────┐
│                    传统Transformer vs 循环深度Transformer           │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   传统Transformer:                                             │
│   ┌───┐ ┌───┐ ┌───┐ ┌───┐ ┌───┐ ┌───┐                      │
│   │ L1 │ │ L2 │ │ L3 │ │ L4 │ │ L5 │ │ L6 │  ... 100+层   │
│   └───┘ └───┘ └───┘ └───┘ └───┘ └───┘                      │
│       │     │     │     │     │     │                         │
│       └─────┴─────┴─────┴─────┴─────┴─────→  输出            │
│       每个层都有不同的权重                                       │
│                                                                 │
│   循环深度Transformer:                                         │
│   ┌──────────────────────────────────────────┐                │
│   │                                          │                │
│   │   [Layer共享权重] ←──────────→ 循环16次 │                │
│   │                                          │                │
│   └──────────────────────────────────────────┘                │
│       │                                          │               │
│       │  ┌───┐  ┌───┐  ┌───┐  ┌───┐  ...   │               │
│       └──┤ 1  ├──┤ 2  ├──┤ 3  ├──┤ 4  ├─... │               │
│          └───┘  └───┘  └───┘  └───┘         │               │
│             ↑        ↑        ↑        ↑       │               │
│             └────────┴────────┴────────┴───────┘               │
│                    相同权重,重复使用                           │
│                                                                 │
│   优势:770M参数的RDT ≈ 1.3B标准Transformer能力                │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

二、核心技术原理

2.1 三段式架构

OpenMythos将循环深度Transformer分为三个功能块:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
┌─────────────────────────────────────────────────────────────────┐
│                    三段式架构图解                                  │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│                         输入 (Input)                              │
│                            │                                    │
│                            ▼                                    │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │                    Prelude (前导层)                      │  │
│   │                                                         │  │
│   │   ┌───┐ ┌───┐ ┌───┐                                   │  │
│   │   │ L1 │ │ L2 │ │ L3 │  ← 标准Transformer层           │  │
│   │   └───┘ └───┘ └───┘  ← 只运行一次                     │  │
│   │                                                         │  │
│   └─────────────────────────────────────────────────────────┘  │
│                            │                                    │
│                            ▼                                    │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │                  Recurrent Block (循环块)               │  │
│   │                                                         │  │
│   │              循环 T 次 (可配置,max_loop_iters)          │  │
│   │                                                         │  │
│   │   ┌───┐  ←──┐   ┌───┐  ←──┐   ┌───┐  ←──┐           │  │
│   │   │ R1 │──┐    │ R2 │──┐    │ R3 │──┐    │ ...      │  │
│   │   └───┘  │    └───┘  │    └───┘  │    │              │  │
│   │           │            │            │    │               │  │
│   │           └────────────┴────────────┘    │               │  │
│   │                  隐藏状态 h_t 更新                        │  │
│   │                                                         │  │
│   └─────────────────────────────────────────────────────────┘  │
│                            │                                    │
│                            ▼                                    │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │                     Coda (尾声层)                        │  │
│   │                                                         │  │
│   │   ┌───┐ ┌───┐ ┌───┐                                   │  │
│   │   │ C1 │ │ C2 │ │ C3 │  ← 标准Transformer层           │  │
│   │   └───┘ └───┘ └───┘  ← 只运行一次                     │  │
│   │                                                         │  │
│   └─────────────────────────────────────────────────────────┘  │
│                            │                                    │
│                            ▼                                    │
│                        输出 (Output)                              │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

2.2 循环块更新公式

循环块在每个循环步骤t的更新规则:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
┌─────────────────────────────────────────────────────────────────┐
│                    循环块更新公式                                 │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│                      h_{t+1} = A·h_t + B·e + Transformer(h_t, e)   │
│                                                                 │
│   其中:                                                         │
│   ├── h_t  : 第t次循环后的隐藏状态                              │
│   ├── h_{t+1} : 第t+1次循环后的隐藏状态                         │
│   ├── e    : 输入编码(来自Prelude)                            │
│   ├── A, B : 可学习的注入参数                                   │
│   └── Transformer : 注意力 + MLP模块                            │
│                                                                 │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                     图解                                 │   │
│   │                                                         │   │
│   │   h_t ──────┐                                          │   │
│   │             │                                          │   │
│   │         ┌───┴───┐                                      │   │
│   │         │   A   │  ← 状态转移矩阵                       │   │
│   │         └───┬───┘                                      │   │
│   │             │                                          │   │
│   │             ▼                                          │   │
│   │         ┌─────────┐    ┌─────────┐    ┌─────────────┐  │   │
│   │         │ A·h_t  │ +  │   B·e   │ +  │Transformer │  │   │
│   │         └─────────┘    └─────────┘    │  (h_t, e)  │  │   │
│   │                                           └─────────────┘  │   │
│   │                        │                                │   │
│   │                        ▼                                │   │
│   │                    h_{t+1}                             │   │
│   │                                                         │   │
│   └─────────────────────────────────────────────────────────┘   │
│                                                                 │
│   关键点:在每个循环步骤注入输入e,防止模型偏离原始信号            │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

2.3 注意力机制选择

OpenMythos支持两种注意力机制,通过cfg.attn_type切换:

注意力类型 类名 描述
GQA GQAttention 分组查询注意力,KV头少于Q头,减少KV缓存
MLA MLAttention 多潜在注意力(DeepSeek-V2),压缩KV潜在向量
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
┌─────────────────────────────────────────────────────────────────┐
│                    GQA vs MLA 对比                               │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   GQA (Grouped Query Attention):                                │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                                                         │   │
│   │   Q头: ████ ████ ████ ████  (8个)                      │   │
│   │   K头: ████ ████              (2个,Q头的1/4)           │   │
│   │   V头: ████ ████              (2个)                    │   │
│   │                                                         │   │
│   │   KV缓存减少: 8/2 = 4倍                                  │   │
│   │                                                         │   │
│   └─────────────────────────────────────────────────────────┘   │
│                                                                 │
│   MLA (Multi-Latent Attention):                                 │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                                                         │   │
│   │   不缓存完整K/V,而是缓存压缩的潜在向量                    │   │
│   │                                                         │   │
│   │   kv_latent_rank = 32 (可配置)                          │   │
│   │                                                         │   │
│   │   KV缓存减少: 10-20倍                                   │   │
│   │                                                         │   │
│   └─────────────────────────────────────────────────────────┘   │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

2.4 混合专家(MoE)架构

对于大规模模型,OpenMythos采用DeepSeek-V3风格的稀疏MoE:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
┌─────────────────────────────────────────────────────────────────┐
│                    MoE架构图解                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   每个FFN层替换为MoE层:                                        │
│                                                                 │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                    Router (路由器)                      │   │
│   │                     (可学习)                            │   │
│   │                         │                              │   │
│   │           ┌─────────────┼─────────────┐                │   │
│   │           ▼             ▼             ▼                 │   │
│   │        ┌──────┐    ┌──────┐    ┌──────┐              │   │
│   │        │ E1   │    │ E2   │    │ E3   │   ...        │   │
│   │        │ Expert│    │ Expert│    │ Expert│              │   │
│   │        └───┬───┘    └───┬───┘    └───┬───┘            │   │
│   │            │             │             │                  │   │
│   │            └─────────────┼─────────────┘                  │   │
│   │                          ▼                                │   │
│   │                    输出                                   │   │
│   └─────────────────────────────────────────────────────────┘   │
│                                                                 │
│   特点:                                                        │
│   ├── Fine-grained experts:每个FFN拆分为多个小专家              │
│   ├── Top-K routing:每个token选择top-k个专家                    │
│   ├── Shared experts:常驻专家,始终激活                        │
│   │   └── 吸收跨领域通用知识(语法、基础推理)                  │
│   └── 激活比例约5%,大幅减少计算量                             │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

三、为什么这能解释Claude Mythos?

3.1 系统性泛化能力

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
┌─────────────────────────────────────────────────────────────────┐
│                    三阶段渐进过程                                 │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   1. 记忆阶段 (Memorization)                                   │
│   │   模型拟合训练分布                                          │
│   │   ████████████████████████████████████████                 │
│   │                                                         │   │
│   │   2. 分布内泛化 (In-distribution Generalization)           │   │
│   │   模型处理已知组合                                         │
│   │   ████████████████████████████████████████████████          │
│   │                                                         │   │
│   │   3. 系统性泛化 (Systematic Generalization)               │   │
│   │   模型处理从未见过的新组合(OOD)                           │
│   │   ████████████████████████████████████████████████████      │
│   │   突然、瞬间涌现                                          │
│   │                                                         │   │
│   这就是为什么Claude Mythos在新问题上感觉与其他模型"质"不同      │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

3.2 深度外推能力

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
┌─────────────────────────────────────────────────────────────────┐
│                    深度外推能力                                  │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   训练数据:5跳推理链                                           │
│   测试数据:10跳推理链                                         │
│                                                                 │
│   ┌─────────────────────────────────────────────────────────┐  │
│   │                                                         │  │
│   │   传统Transformer:                                     │  │
│   │   5跳训练 ──────────────────── X ───→ 10跳测试           │  │
│   │                          失败                           │  │
│   │                                                         │  │
│   │   循环深度Transformer:                                  │  │
│   │   5跳训练 ──────────────────── ✓ ───→ 10跳测试           │  │
│   │                          通过(运行更多循环)             │  │
│   │                                                         │  │
│   └─────────────────────────────────────────────────────────┘  │
│                                                                 │
│   推理时更多循环 = 更深推理链 = 解决更难问题                    │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

3.3 潜在思维 vs 思维链

特性 思维链 (CoT) 潜在思维 (Latent Thought)
输出形式 离散token 连续隐藏状态
推理方式 单路径串行 多路径并行
表达能力 每步一个选择 每步多个备选
本质 显式推理 隐式推理

四、与传统Transformer的对比

4.1 参数效率对比

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
┌─────────────────────────────────────────────────────────────────┐
│                    参数效率对比                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   ┌─────────────────────────────────────────────────────────┐   │
│   │                                                         │   │
│   │   传统Transformer:                                      │   │
│   │   100层 × 每层1B参数 = 100B总参数                      │   │
│   │   推理:单次前向传播                                     │   │
│   │                                                         │   │
│   │   循环深度Transformer:                                   │   │
│   │   16层 × 每层1B参数 = 16B总参数                        │   │
│   │   推理:16次循环前向传播                                 │   │
│   │                                                         │   │
│   │   效果:相近能力,6倍参数节省                            │   │
│   │                                                         │   │
│   └─────────────────────────────────────────────────────────┘   │
│                                                                 │
│   关键数据:                                                    │
│   ├── 770M参数的RDT ≈ 1.3B标准Transformer                    │
│   └── 验证步骤快2.67倍                                         │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

4.2 核心技术对比

特性 传统Transformer OpenMythos (RDT)
权重使用 每层独立 循环共享
推理深度 固定 可变
内存占用 随层数增长 固定(不随循环增长)
推理计算 随层数线性增长 随循环次数线性增长
KV缓存 完整存储 可压缩(MLA减少10-20倍)

五、稳定性问题与解决方案

5.1 训练不稳定性

循环模型训练有两个主要失败模式:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
┌─────────────────────────────────────────────────────────────────┐
│                    训练失败模式                                   │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   1. 残差爆炸 (Residual Explosion)                              │
│   │   h_t在循环中无限增长                                      │
│   │   0.5 → 1.2 → 3.8 → 99.7 → ∞                           │
│   │                                                         │   │
│   │   2. 损失突变 (Loss Spikes)                               │   │
│   │   训练突然发散                                            │
│   │   由于注入参数的大谱范数                                   │
│   │                                                         │   │
│   ┌───────────────────────────────────────────────────────┐   │
│   │                                                       │   │
│   │   解决方案:LTI约束(线性时不变系统)                   │   │
│   │                                                       │   │
│   │   h_{t+1} = A·h_t + B·e                              │   │
│   │                                                       │   │
│   │   稳定性由A的谱半径决定:                               │   │
│   │   ρ(A) < 1 → 稳定,收敛                               │   │
│   │   ρ(A) ≥ 1 → 不稳定,发散                             │   │
│   │                                                       │   │
│   └───────────────────────────────────────────────────────┘   │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

5.2 Parcae架构的解决方案

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
┌─────────────────────────────────────────────────────────────────┐
│                    Parcae稳定化方案                               │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   核心思想:约束注入参数,使稳定性由构造保证                      │
│                                                                 │
│   步骤:                                                        │
│   ├── 1. 将A参数化为连续负对角矩阵                              │
│   │   A = Diag(-exp(log_A))                                   │
│   │                                                         │   │
│   ├── 2. 使用ZOH/Euler方案离散化                               │
│   │   A_discrete = exp(Δt · A_continuous)                     │
│   │                                                         │   │
│   ├── 3. 通过可学习的标量Δt强制负性                            │
│   │                                                         │   │
│   └── 4. 这确保ρ(A) < 1始终成立                                │
│       无论学习率或批噪声如何                                    │
│                                                                 │
│   结果:                                                        │
│   ├── 循环模型对超参数选择显著更鲁棒                            │
│   └── 即使在高学习率下也能正常训练                              │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

六、模型规模配置

6.1 预配置模型

OpenMythos提供从1B到1T参数的多种预配置规模:

模型 dim Experts expert_dim 循环次数 上下文 最大输出
mythos_1b 2048 64 2048 16 4K 4K
mythos_3b 3072 64 4096 16 4K 4K
mythos_7b 4096 128 5632 24 8K 4K
mythos_10b 4096 128 5632 24 8K 4K
mythos_50b 6144 256 9728 32 8K 4K
mythos_100b 8192 256 13568 32 1M 128K
mythos_500b 12288 512 23040 48 1M 128K
mythos_1t 16384 512 34560 64 1M 128K

七、快速部署与使用

7.1 安装

1
2
3
4
5
# 基础安装
pip install open-mythos

# 启用Flash Attention 2(需要CUDA)
pip install open-mythos[flash]

7.2 基本使用示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
import torch
from open_mythos.main import OpenMythos, MythosConfig

# 选择注意力类型
attn_type = "mla"  # 或 "gqa"

# 基础配置
base = {
    "vocab_size": 1000,
    "dim": 256,
    "n_heads": 8,
    "max_seq_len": 128,
    "max_loop_iters": 4,
    "prelude_layers": 1,
    "coda_layers": 1,
    "n_experts": 8,
    "n_shared_experts": 1,
    "n_experts_per_tok": 2,
    "expert_dim": 64,
    "lora_rank": 8,
    "attn_type": attn_type,
}

# 根据注意力类型配置
if attn_type == "gqa":
    cfg = MythosConfig(**base, n_kv_heads=2)
else:
    cfg = MythosConfig(
        **base,
        n_kv_heads=8,
        kv_lora_rank=32,
        q_lora_rank=64,
        qk_rope_head_dim=16,
        qk_nope_head_dim=16,
        v_head_dim=16,
    )

# 创建模型
model = OpenMythos(cfg)

# 统计参数量
total = sum(p.numel() for p in model.parameters())
print(f"[{attn_type.upper()}] Parameters: {total:,}")

# 前向传播
ids = torch.randint(0, cfg.vocab_size, (2, 16))
logits = model(ids, n_loops=4)
print(f"[{attn_type.upper()}] Logits shape: {logits.shape}")

# 生成
out = model.generate(ids, max_new_tokens=8, n_loops=8)
print(f"[{attn_type.upper()}] Generated shape: {out.shape}")

# 稳定性检查
A = model.recurrent.injection.get_A()
rho = torch.linalg.eigvals(A).abs().max().item()
print(f"[{attn_type.upper()}] Spectral radius ρ(A) = {rho:.4f} (must be < 1)")

7.3 使用预配置模型

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
from open_mythos import (
    mythos_1b,
    mythos_3b,
    mythos_7b,
    mythos_10b,
    mythos_50b,
    mythos_100b,
    mythos_500b,
    mythos_1t,
    OpenMythos,
)

# 使用7B配置
cfg = mythos_7b()
model = OpenMythos(cfg)

total = sum(p.numel() for p in model.parameters())
print(f"Parameters: {total:,}")

7.4 训练脚本

单GPU训练:

1
python training/3b_fine_web_edu.py

多GPU训练(自动检测GPU数量):

1
torchrun --nproc_per_node=$(python -c "import torch; print(torch.cuda.device_count())") training/3b_fine_web_edu.py

训练配置:

配置项 详情
优化器 AdamW
数据集 HuggingFaceFW/fineweb-edu
分词器 openai/gpt-oss-20b via MythosTokenizer
并行 PyTorch DDP via torchrun
精度 bf16 (H100/A100)
目标 30B tokens

八、完整项目结构

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
OpenMythos/
├── src/
│   └── open_mythos/
│       ├── main.py              # 核心模型
│       ├── config.py            # 配置类
│       ├── attention.py         # 注意力机制
│       ├── moe.py               # MoE实现
│       └── recurrent.py         # 循环块
├── training/
│   └── 3b_fine_web_edu.py      # 3B模型训练脚本
├── docs/
│   ├── open_mythos.md          # API文档
│   └── datasets.md             # 数据集指南
├── examples/
│   └── ...                     # 示例代码
├── tests/
│   └── ...                     # 测试用例
├── README.md
├── LICENSE
├── pyproject.toml
└── requirements.txt

九、应用场景

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
┌─────────────────────────────────────────────────────────────────┐
│                    OpenMythos应用场景                             │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   1. 深度推理任务                                               │
│   ├── 数学证明                                                  │
│   ├── 逻辑推理                                                  │
│   ├── 多步骤规划                                               │
│   └── 代码生成                                                  │
│                                                                 │
│   2. 长上下文处理                                               │
│   ├── 长文档理解                                               │
│   ├── 代码库分析                                               │
│   └── 多轮对话                                                 │
│                                                                 │
│   3. 资源受限环境                                               │
│   ├── 边缘设备部署                                             │
│   ├── 移动端应用                                               │
│   └── 研究实验                                                 │
│                                                                 │
│   4. 研究用途                                                   │
│   ├── 循环Transformer研究                                      │
│   ├── MoE架构实验                                             │
│   └── 新架构探索                                               │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

十、总结

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
┌─────────────────────────────────────────────────────────────────┐
│                      核心总结                                    │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│   1. OpenMythos是什么?                                        │
│      → 开源的Claude Mythos架构理论重建                         │
│      → 循环深度Transformer实现                                  │
│                                                                 │
│   2. 核心架构:                                                │
│      → Prelude(前导层)+ Recurrent Block(循环块)+ Coda(尾声层)│
│      → MoE稀疏激活                                             │
│      → MLA/GQA注意力                                          │
│                                                                 │
│   3. 核心优势:                                                │
│      → 参数效率高(770M ≈ 1.3B)                              │
│      → 推理深度可调                                            │
│      → 支持隐式多跳推理                                        │
│                                                                 │
│   4. 部署方式:                                                │
│      → pip install open-mythos                                 │
│      → 提供1B-1T多种规模                                       │
│      → 支持单GPU/多GPU训练                                     │
│                                                                 │
│   5. 适用场景:                                                │
│      → 深度推理、长上下文、资源受限环境、研究                    │
│                                                                 │
│   ⚠️ 注意事项:                                                │
│      → 这是理论重建,非官方实现                                 │
│      → 性能表现待实际验证                                      │
│      → 需要足够GPU内存(建议16GB+)                            │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

参考链接

  • GitHub仓库:https://github.com/kyegomez/OpenMythos
  • Discord社区:https://discord.gg/EamjgSaEQf

如果你对循环深度Transformer或OpenMythos有任何问题,欢迎在评论区交流!

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计