Claude Mythos核心架构开源！22岁天才一人破解，融合DeepSeek思路

2026-04-20 发布浏览21次点赞0次收藏0次

【导读】Claude Mythos核心架构，竟被一个22岁天才扒了个精光！OpenMythos现已全开源，不靠堆参数，原地「循环思考」16次就能推理。闭源实验室的护城河，真的还在吗？

简直太疯狂了！

Anthropic捂得最严实的Claude Mythos，竟被一个22岁的年轻人扒开了。

不是泄露，不是内部员工跳槽带出来的。

是一个叫Kye Gomez的初创CEO，以第一性原理，硬生生把Claude Mythos的核心架构从头推导了出来。

更炸裂的是，他把这一项目——OpenMythos全开源了。

复现帖引近100万人围观

一时间，全网都坐不住了，网友们纷纷惊叹Mythos背景精妙的设计。

不堆参数，原地「循环思考」16次

先说结论，Kye Gomez认为——

Claude Mythos的核心不是一个更大的Transformer，而是一种叫做「循环深度Transformer」（Recurrent-Depth Transformer, RDT）的架构。

说白了就是，同一套权重，在一次前向传播里循环跑最多16次。

传统大模型像盖高楼，一层一层往上堆参数。100层不够就200层，200层不够就500层。

参数越多，模型越大，显存吃得越猛，训练成本越恐怖。

但RDT完全换了一个思路：不盖高楼，原地跑圈。

模型只有一个核心计算块，但这个块会被反复执行。每循环一次，隐藏状态就更新一次，就相当于「多想了一步」。

而且所有的思考都在连续潜空间里默默进行——不用像思维链（CoT）那样，每一步都吐出可见的token。

这不是重复计算，是迭代推理。

架构全拆解：三段式设计

整个OpenMythos的架构分三段：

Prelude（序曲）→ Recurrent Block（循环核心）→ Coda（终章）

Prelude和Coda是标准的Transformer层，各跑一次。

真正的计算核心是中间的「循环块」，它最多循环16次，每次循环的更新规则是：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

其中e是Prelude编码后的原始输入，每一步都会被重新注入，防止模型在循环中「跑偏」。

MoE给广度，循环给深度

光靠循环能解释Mythos推理的「深度」，但解释不了广度。

OpenMythos在循环核心的每个FFN层，都替换成了MoE层，设计参考了DeepSeek-MoE：

大量细粒度的路由专家；
每个token只激活其中一小部分；
少量「共享专家」始终激活，负责吸收跨领域的通用知识。

最精妙的一点，随着隐藏状态h_t在循环中不断演化，路由器在每一层循环深度会选择不同的专家子集。

也就是说，虽然权重共享，但每次循环的计算路径完全不同：

MoE提供广度，循环提供深度。

项目地址：https://github.com/kyegomez/OpenMythos

注意力机制默认使用「多潜变量注意力」（Multi-Latent Attention），来自DeepSeek-V2，把KV缓存压缩成低秩潜变量，在生产规模下能实现10-20倍的KV显存节省。

三个额外机制保证循环稳定性：LTI约束注入（谱半径强制小于1）、自适应计算时间（ACT）逐位置停机、以及深度级LoRA适配器让每次迭代都有独立的行为调整能力。

细思极恐，这套设计精密得像一台瑞士钟表。

770M打平1.3B，参数效率直接翻倍

这不是嘴上说说。

此前，来自Parcae团队的实验数据：一个770M参数的循环模型，在同等训练数据下，能达到1.3B标准Transformer的下游任务质量。

换句话说——用一半的参数，干了同样的活。

这对整个行业意味着什么？

对消费级硬件来说，这是天大的利好。以前跑个像样的模型，没有A100你连门都进不了。

现在呢？推理深度是时间换空间——你不需要更多的显存，只需要多跑几圈。

更重磅的是，这彻底改写了AI的Scaling法则。以前拼的是谁的参数多、谁的GPU多、谁的电费账单厚。

现在的规则变了：未来最强的模型，不是参数最多的，而是想得最多次的。

不过，作者也表示，这目前只是理论上的说法，还需要保留一些意见。

高中毕业，就当上了CEO

这位扒开22岁Claude Mythos黑箱的大男孩Kye Gomez，是Swarms的创始人，之前还领导过Agora Labs。

他的研究重点是——大规模多智能体系统、替代模型架构和多模态模型。

个人主页显示，Kye Gomez高中毕业之后，就开始投身于创业。

在2021年-2024年间，他同时担任了三家公司的联创/CEO，创建立了一个以「APAC」为品牌的生态体系。

其覆盖了AI深科技、媒体、食品科技等多个领域。

22岁小哥，开源了Anthropic神级模型

这件事最让人震撼的，不是架构本身有多厉害。

是一个22岁的创业者，只用公开论文和第一性原理，就把Anthropic藏了一年的黑箱直接复现了出来。

还全开源了，而且只要几行代码就能跑。

这意味着什么？

闭源实验室的架构优势，正在以肉眼可见的速度消失。

FT最新报道中，Dario Amodei重磅预测，中国将在12个月内，完全复刻出具备Claude Mythos级别能力的大模型。

针对外界对LLM性能是否触及天花板的质疑，Amode用一句富有诗意的话给出了回应——

彩虹没有尽头，只有彩虹本身。

他强调，目前完全看不到技术放缓的迹象。

当一个人用公开信息就能重建最核心的技术，护城河就不再是架构了。

参考资料：

https://x.com/KyeGomezB/status/2045659150340723107?s=20

https://github.com/kyegomez/OpenMythos

大模型 Go AI mod 改写 CEO 性能 Claude 创始人

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

Claude Mythos核心架构开源！22岁天才一人破解，融合DeepSeek思路

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。