全面深度解读DeepSeek-v3基础设施演进核心技术要点
DeepSeek-v3团队将算法与基础设施深度绑定,算力被视为联合优化变量而非约束。底层硬件通信优化与代数拓扑、范畴论等数学原理的应用,可能推动大模型向图灵完备处理器演进。NetDAM等框架通过内存语义融合跨主机与主机内通信,提升效率。
DeepSeek-v3团队的成果之所以亮眼,很大程度上要归功于他们将算法与基础设施进行了深度绑定。这种“算法与Infra不分家”的做法,在如今的大模型圈子里其实相当稀缺。能同时吃透算法和底层系统的人才本就不多,而DeepSeek恰恰是那支底蕴深厚的团队之一。不少核心成员都有OI(信息学竞赛)背景,对于这类人来说,优化计算策略、深挖处理器体系结构,几乎是刻在骨子里的本能。反观当下,不少算法岗的新人代码能力确实偏弱,能打通算法与工程的更是凤毛麟角。
当然,在更底层的芯片互联以及数学层面,这个领域里同样不乏其他深耕者。比如FP8训练这类量化技术,本质上就是一套精巧的“精度换效率”的把戏,理解其背后的数学逻辑往往比单纯会调库更重要。
1. 算力不再应当只是约束,而是一个可以联合优化的变量
其实在很多年前,阿里妈妈团队在将深度学习引入推荐系统时,就已经实践过大量算法与算力基础设施协同的工作。当时周国睿老师的一句话至今看来仍是金玉良言:“算力不再应当只是约束,而是一个可以联合优化的变量。” 这种思路放在今天的大模型训练上,依然极具指导意义。
量化交易领域的情况与此高度相似。它同样要求在严格的时间约束下,实现算力与算法的精妙平衡。高频交易策略更是把这一挑战推向了极致——涉及到硬件、算法、算力三者的协同作战。为了换取那微秒级的优势,有的团队甚至不惜牺牲稳定性,用家用CPU超频来压榨运算速度,或在网卡上抠掉一个看似不重要的寄存器。当然,这类涉及交易网络底层设计的工作,往往受到严格的合规约束,并非所有人都能涉足。
需要指出的是,对于当前主流的Transformer架构,业界其实存在不少保留意见。一个核心观点是:依赖极端算力堆砌的Scaling Law,未必是通往通用人工智能的正确路径。这促使了更多的工作聚焦于底层的算力优化,以及顶层算法背后的数学原理。
在底层算力方面,例如GPU微架构分析、Tensor运算优化和AI翻跟斗互联都是关键方向。而在数学层面,有一个相当大胆的判断:这一次人工智能革命,可能会首次将范畴论、代数拓扑、代数几何这些二十世纪的数学大规模搬上商用计算的舞台。比如,最近出现的基于Topos视角的多模态大模型研究,或是Grothendieck图神经网络,似乎隐约透露出一丝光芒。这些代数结构与GNN所面临的稀疏计算效率问题,看似与AGI无关,但它们极有可能是模拟人脑认知方式中最精妙的部分。
顺着这个思路,甚至可以将当前的模型训练过程与CPU体系结构做一个类比:
原始的GPT模型就像一个顺序执行的处理器:预测下一个token,类似于PC++,在历史token的“栈”上操作。
到了o1/o3这类大推理模型,无论是通过MoE还是强化学习中的PRM,本质上都在token预测上引入了“分支”:跳转、循环、回溯。PRM就好比CPU的分支预测器。从体系架构角度看,这正在让大模型逐步逼近图灵完备的处理能力。
基于这个观点,当前的GPU TensorCore/CUDA Core扮演了执行引擎的角色,但还需要控制单元、译码器、LSU等配套。基础设施的演进因此有了更多值得探索的话题。
一个更进一步的判断是:当前的Transformer模型本身负责生成token的“数据路径”,而Grothendieck图神经网络这类代数结构,有望成为模型的“控制路径”——这或许是通往大推理模型的一条可行之路。
2. 硬件和体系架构的演进
DeepSeek-v3的实现堪称优雅,比如它充分考虑了H800芯片因制裁而被阉割的影响,在训练中果断放弃了TP并行。针对MoE架构的AlltoAll通信,它做了极致的优化,涉及PXN、IBGDA、warp specialization以及dual pipe等技术。相比之下,其他一些头部团队处理AlltoAll时还在苦苦挣扎,前两年OCP上甚至还有人呼吁“Call for Action”。Meta的Llama 3在训练MoE时据说就遭遇了失败,这恐怕也是为什么他们训练成本高出十倍的原因。
回到DeepSeek团队对未来硬件的需求上:当前H800的132个SM中,竟有20个被用于通信,这显然是一种浪费。他们需要通信协处理器,并希望从计算单元的角度,统一ScaleOut和ScaleUp网络,让计算单元能通过简单的原语提交通信请求。值得留意的是,这些构想其实在几年前就已经被论证并实现了。
早在2018年,随着Transformer模型兴起和模型变大导致通信成为瓶颈,就有团队开始AI基础设施的预研,甚至率先将深度学习模型引入路由器以应对性能和安全场景。随后,NetDAM的设计与实现被提出。直到今天你会发现,Tesla的TTPoE本质上也是在解决同样的问题。
时至今日,DeepSeek对未来硬件的这些演进设想,几乎都能在这一套框架内实现。
这套方案的核心思路是:在GPU侧呈现为一个标准的内存接口,通过NetDAM上的一片内存,基于内存语义彻底融合了ScaleOut(跨主机)和ScaleUp(主机内部)的通信。DeepSeek提到的Read/Write/Multicast/Reduce等操作,本就是这个框架一开始就设计的功能。而传统方案如RoCE,则需要多次访问GPU内存并引入CPU控制流,效率远不及直接在NetDAM上卸载。至于后续的量化与Scale相关的近内存计算,NetDAM更是天然的附着点。通过直接旁路PCIe,延迟可以轻松超越传统方案。
当然,这个世界并不完美,产业格局决定了“人总归是有屁股的”。比如Cisco的重心曾全部押注Silicon One,Intel守着UPI在CXL上犹犹豫豫,而Nvidia在B200这一代虽然尝试将IB和NVSwitch的交换芯片融合,最终迫于现实还是分开了。技术演进,终究是理想与现实妥协的产物。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:全面深度解读DeepSeek-v3基础设施演进核心技术要点要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在 Degiro 上进行投资的用户,常常会遇到一个共同的痛点:平台自带的数据展示较为基础,若想获取更深入的投资组合分析、风险指标,甚至对未来走势做出预测,通常只能借助 Excel 手动处理。不过,现在有一款 Chrome 扩展程序可以完美解决这一难题——Mercury,专为 Degiro 用户量身打
在投资决策过程中,客观数据往往比主观直觉更值得信赖。名为Lorna的智能平台,运用独特的现金流分析体系,帮助投资者穿透虚饰的财务报表,直达企业真实的财务健康状况。 什么是Lorna?——数据驱动的现金流分析投资工具 简而言之,Lorna是一个以数据为核心驱动力的投资分析工具。其核心利器是独创的“现金
Front Street自动追踪你的每一笔消费,整合各类忠诚度计划,并提供财务洞察与省钱妙招——说白了,就是帮你把钱&包管得明明白白。 什么是Front Street? 简单讲,Front Street就是你的购物管家。它自动记录你在每个品牌、每家店的所有购买行为,然后把零散的忠诚度计划全部整合到一
在创投圈深耕多年,你会发现一个普遍难题:融资过程中,投资者关系维护、尽职调查、潜在投资人挖掘……这些环节往往耗费巨大精力,却又直接决定成败。如果能有一款工具将这些琐事自动化,让团队聚焦于真正重要的沟通与战略决策,那该多理想?Finta 正是为此而生。 什么是Finta? Finta 本质上是一款 A
- 日榜
- 周榜
- 月榜
热点快看
