当前位置: 首页
AI
Claude Mythos架构开源解析 22岁开发者独立复现DeepSeek方案

Claude Mythos架构开源解析 22岁开发者独立复现DeepSeek方案

热心网友 时间:2026-05-18
转载

近期人工智能领域发生了一起引发行业广泛关注的突破性事件。Anthropic公司高度保密的Claude Mythos核心架构,竟被一位22岁的年轻创业者通过公开资料,运用第一性原理完整推导并成功复现。


更令人瞩目的是,这位名为Kye Gomez的初创公司CEO,将其复现项目——OpenMythos——进行了全面开源。这一举动迅速在技术社区引发了关于其精妙架构设计的热烈讨论。




相关的技术复现解析吸引了近百万的浏览量,众多开发者和研究者纷纷惊叹于Mythos架构背后设计的巧妙与高效。




不依赖参数堆叠,实现16次「循环思考」

那么,OpenMythos所揭示的核心技术秘密究竟是什么?根据Kye Gomez的深入分析,Claude Mythos的核心并非一个参数规模更大的Transformer模型,而是一种被称为“循环深度Transformer”的创新架构。

简而言之,这种架构不再单纯追求参数量的“堆料”,而是让同一套模型权重,在单次前向传播过程中,最多可以循环执行16次计算。


传统的大模型扩展思路,类似于不断加高建筑楼层。100层不够就建200层,参数越多,模型越庞大,对显存容量和训练成本的要求也呈指数级上升。

然而,RDT架构彻底改变了这一范式:它不再追求盖更高的楼,而是让模型在同一个“计算场地”上反复进行深度推演。模型仅有一个核心计算模块,但这个模块会被反复调用。每完成一次循环,模型的隐藏状态就更新一次,相当于模型“多进行了一步深度思考”。其关键在于,所有这些“思考”过程都在连续的潜在空间中进行,无需像传统的思维链技术那样,每一步都必须输出可见的文本标记。

这绝非简单的重复计算,而是一种高效的迭代式深度推理机制。


架构全面解析:三段式精巧设计

整个OpenMythos的架构可以被清晰地划分为三个逻辑阶段:序曲(Prelude)→ 循环核心(Recurrent Block)→ 终章(Coda)。

其中,序曲和终章是标准的Transformer层,各执行一次。真正的技术玄机隐藏在中间的“循环块”,它最多可循环16次。其状态更新规则可以概括为以下公式:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

公式中的e代表经过序曲编码后的原始输入。在每一步循环中,这个原始信息都会被重新注入到计算中,从而有效防止模型在漫长的内部迭代过程中“思维跑偏”或遗忘初始问题,确保了推理的准确性和一致性。


MoE拓展知识广度,循环机制深化思考

单一的循环机制主要增强了模型推理的“深度”,但如何同时实现知识的“广度”覆盖呢?答案在于混合专家系统的集成。

OpenMythos在循环核心的每个前馈网络层,都替换成了MoE层,其设计参考了DeepSeek-MoE的先进思路:采用大量细粒度的专家网络;每个输入标记仅激活其中一小部分专家;同时设置少量“共享专家”始终保持激活状态,以承载跨领域的通用知识与能力。

最精妙的设计在于,随着隐藏状态h_t在循环中不断演化,路由机制在每一次循环深度上,都可能动态选择不同的专家子集。这意味着,尽管模型权重是共享的,但每一次循环所激活的计算路径却可以完全不同。可以说,MoE机制提供了横向的知识广度与多样性,而循环机制则提供了纵向的、递进式的思考深度。


在注意力机制方面,项目默认采用了源自DeepSeek-V2的“多潜在变量注意力”技术,它能将键值缓存压缩为低秩的潜在变量,在大规模生产部署场景下,有望实现10-20倍的KV缓存显存节省,显著提升推理效率。

此外,为了确保循环过程的稳定性和可控性,架构中还引入了三项关键机制:LTI约束注入(强制谱半径小于1以防止状态发散)、自适应计算时间(允许模型根据复杂度在不同位置提前停止计算)、以及深度级LoRA适配器(让每次迭代都能进行独立且灵活的行为微调)。整套设计环环相扣,精密程度令人叹服。

7.7亿参数媲美13亿,参数效率实现翻倍

这种创新架构的优势并非停留在理论层面。此前,来自Parcae研究团队的实验数据已经证实:一个仅包含7.7亿参数的循环模型,在同等训练数据条件下,能够达到13亿参数标准Transformer模型在下游任务上的性能表现。

换言之,仅用一半左右的参数量,就完成了同等水平的工作。参数效率的提升是显著且可量化的。


这对整个AI行业意味着什么?首先,对于消费级硬件和广大开发者而言,这无疑是一个重大利好。过去想要运行一个性能尚可的大型模型,没有高端专业显卡几乎难以实现。而现在,推理深度可以通过“以时间换空间”的策略来实现——你不再需要巨大的显存,只需要让模型进行更多次的循环“思考”。

更深层次的影响在于,它可能正在悄然改写AI模型的扩展定律。以往的竞争很大程度上是参数规模、算力集群规模和能源消耗的比拼。未来的规则或许将转变为:最强的模型,未必是参数最多的,但很可能是“思考”次数最多、推理最深的那一个。当然,这目前更多是一种基于理论推演和初步实验的展望,其实际效果与潜力仍需通过更大规模的工程实践来验证。


高中毕业即投身创业的CEO

完成这项惊人技术复现的Kye Gomez,是Swarms公司的创始人,此前还曾领导过Agora Labs。他的研究兴趣高度聚焦于大规模多智能体系统、替代性模型架构以及多模态模型等前沿方向。


根据其个人公开信息显示,Kye Gomez在高中毕业后便直接投身于创业浪潮。


在2024年间,他同时担任了三家不同领域公司的联合创始人或CEO,构建了一个以“APAC”为品牌的创新生态体系,业务范围覆盖了人工智能深科技、媒体、食品科技等多个前沿与交叉领域。


闭源实验室的技术护城河,依然坚固吗?

整起事件最令人震撼之处,或许并非架构本身有多么复杂难懂。而是一个22岁的创业者,仅凭借公开的学术论文和第一性原理的严谨推演,就将Anthropic保密近一年的核心技术黑箱成功复现,并慷慨地开源给全球技术社区,使得更多研究者和开发者能够用几行代码一探顶尖架构的究竟。

这释放出一个强烈的行业信号:闭源实验室在核心架构创新上的领先优势,其技术壁垒可能正在以超乎想象的速度变薄。英国《金融时报》的最新报道中,Anthropic的联合创始人Dario Amodei甚至预测,中国的研究团队将在12个月内完全复刻出具备Claude Mythos级别能力的大语言模型。


面对外界关于大模型性能是否已触及天花板的广泛质疑,Amodei用一句富有诗意的话回应道:“彩虹没有尽头,只有彩虹本身。”他强调,目前完全看不到人工智能技术发展的放缓迹象。

当核心的架构设计能够被外界独立推导并成功复现时,真正的竞争护城河或许就不再仅仅是技术原理本身,而是高质量的数据、强大的工程化能力、繁荣的开发者生态以及持续创新的速度。这场由开源社区和独立研究者共同推动的“架构透明化”浪潮,正在为人工智能的未来发展打开全新的想象空间与可能性。

来源:https://www.163.com/dy/article/KQVMQT3D0511ABV6.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
特斯拉德州工厂部署14辆无方向盘自动驾驶出租车

特斯拉德州工厂部署14辆无方向盘自动驾驶出租车

特斯拉的机器人出租车,终于从概念驶入了现实。就在最近,其位于德州的超级工厂完成了首批14辆无方向盘Cybercab的部署。这可不是简单的测试车,而是标志着特斯拉酝酿已久的Robotaxi战略,正式迈入了规模化验证的关键一步。 仔细观察这批车辆,你会发现它们与去年10月“We Robot”活动上亮相的

时间:2026-05-18 22:40
魏牌V9X搭载归元S平台引领AI豪华出行新时代

魏牌V9X搭载归元S平台引领AI豪华出行新时代

4月17日,一场以“契约”为核心的技术盛宴在保定拉开帷幕。魏牌归元S技术发布会暨V9X预售发布会,不仅揭开了长城汽车36年造车智慧的集大成之作——归元S平台,也宣告了其首款旗舰车型魏牌V9X以37 18万元起的预售价,正式开启全球征程。这个平台,与其说是一套技术方案,不如说是一次以“用户价值”为锚点

时间:2026-05-18 22:39
DeepSeek估值680亿融资20亿 梁文锋首次回应

DeepSeek估值680亿融资20亿 梁文锋首次回应

本周五,人工智能行业迎来一则关键动态。 据The Information、路透社等多家权威媒体援引知情人士消息,中国AI明星企业深度求索(DeepSeek)正与投资方展开洽谈,计划以约100亿美元估值进行新一轮融资,目标筹集至少3亿美元资金。 从行业渠道获悉,DeepSeek接触投资机构的情况属实,

时间:2026-05-18 22:38
WorkBuddy Tabbit OpenCLI 三角协同高效使用指南

WorkBuddy Tabbit OpenCLI 三角协同高效使用指南

做AI工具调研时,有个现象挺有意思:网上文章要么说Tabbit是OpenClaw的最佳搭档,要么夸OpenCLI是新一代浏览器自动化神器,但很少有人把这三者放在一起讨论。 今天要聊的,正是WorkBuddy、Tabbit和OpenCLI这三者如何协同工作,形成一个高效的闭环。 一、为什么需要三角协同

时间:2026-05-18 22:37
Mythos推动AI进入行动时代从语言理解迈向动手操作

Mythos推动AI进入行动时代从语言理解迈向动手操作

4月8日,Anthropic的一则官宣,在看似平静的AI湖面上投下了一颗深水冲击波。他们发布了Claude Mythos Preview,但紧接着,又以一种近乎“自我封印”的姿态,亲手为这颗冲击波套上了层层枷锁。 这完全不像一场常规的发布会。没有庆祝,没有香槟,也没有宣布全面开放。相反,Anthro

时间:2026-05-18 22:37
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程