当前位置: 首页
业界动态
翻完DeepSeek报告,我们发现了中国AI的默契

翻完DeepSeek报告,我们发现了中国AI的默契

热心网友 时间:2026-04-25
转载

多次偶遇背后的一场「合谋」

这一周,全球大模型领域的重磅消息接二连三,热闹非凡。国内赛场更是精彩纷呈,从周一开始,Qwen、Kimi、小米、腾讯等玩家相继亮出最新成果。到了周五,备受期待的DeepSeek V4双版本终于发布,瞬间在国内AI圈掀起了一波讨论热潮。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

一个值得关注的里程碑是,中国正式迈入了“万亿参数俱乐部”,并且已有DeepSeek和Kimi两家公司选择将如此规模的模型开源,小米也预告了其万亿模型的开放计划。

仔细研读DeepSeek V4近60页的技术报告,一个有趣的发现浮出水面:这两家已开源的万亿巨头之间,存在着一种超越竞争的默契。这种默契所带来的协同效应,远比任何单打独斗都更具力量。

如果往前追溯,你会发现DeepSeek和Kimi的“偶遇”早已不是第一次。这背后,或许源于两位创始人对Scaling Law的共同信仰,以及对AGI这一终极目标的竞相追逐。

从DeepSeek-R1与Kimi K1.5发布仅隔两小时,到双方关于推理与优化的论文同期发表;从Kimi的数学推理模型启发DeepSeek-Prover V2,再到本周Kimi K2.6与DeepSeek-V4的齐头并进——时间线上的巧合未免太多。

这看起来不像是一场你死我活的厮杀,反倒更像一种基于“开源共享”精神的共同进步。用汽车圈流行的一句话来形容,或许很贴切:“好的设计,总是心有灵犀。”

技术层面的联动尤为明显:Kimi K2采用了DeepSeek V3首创的MLA注意力机制;而到了DeepSeek V4,则引入了经过Kimi大规模验证的Muon优化器。这种你追我赶、相互借鉴的态势,已然成为行业技术演进的一大亮点。

MLA注意力机制:DeepSeek 创新,Kimi 复用

首先值得一书的是MLA注意力机制。这个由DeepSeek在V3中首创的设计,通过巧妙的低秩压缩技术,有效降低了长上下文推理时的显存占用,让处理超长文本成为可能。这项创新很快得到了业界的认可,Kimi在构建K2模型时,便在其注意力机制中采纳了MLA的设计思路。

二阶优化器:Kimi 大规模验证,DeepSeek 跟进

另一个关键突破发生在优化器领域。2025年2月,Kimi发表了《Muon is Scalable for LLM Training》论文,在480亿参数的Moonlight系列模型上验证了Muon优化器的有效性,旨在挑战已统治行业十年的Adam优化器。同年7月,万亿参数的Kimi K2首次大规模应用了二阶优化器Muon,充分展示了其在大模型训练中的潜力。

如今,DeepSeek V4也跟进采用了Muon优化器技术,以提升训练过程的稳定性。两家公司将底层的优化技术相互吸纳,打破了技术壁垒,展现了一种前所未有的、深层次的协作姿态。

残差连接:两种不同的解决方案

在残差连接这一关键组件上,两家公司也各自给出了精彩的答案。

DeepSeek在V4中引入了mHC残差连接,目标是提升信息传递的效率。通过改变多头注意力的拼接方式,mHC优化了梯度流动,实测将训练效率提升了约30%。

Kimi则提出了Attention Residuals(注意力残差),同样致力于优化信息流的传递效率,并提升了模型整体表现。这一创新获得了业界多位重量级人物的关注。Andrej Karpathy点评道“我们对《Attention is All You Need》的理解还不够”,OpenAI的推理专家Jerry Tworek则认为“我们应该重新思考一切,深度学习的2.0时代正在到来”。就连马斯克也在社交媒体上为此点赞,称其为“令人印象深刻的研究”。

两种方案各有侧重,体现了同一技术问题上不同的解决思路与工程智慧。

长上下文推理:两种技术路线的探索

长上下文推理是衡量大模型能力的重要标尺,也是一项巨大的工程挑战。Kimi和DeepSeek在此问题上选择了不同的技术路径。Kimi早在2024年便实现了百万Token的上下文能力,尽管能力强大,但其计算成本随着上下文长度线性增长的问题,对普通开发者而言仍是一道门槛。

到了2026年,针对成本难题,两家公司分别提出了自己的解决方案:

DeepSeek选择了稀疏注意力路线。让模型只聚焦于输入中的关键部分,从而大幅降低计算量,使得百万上下文的成本变得更为可控。这种方法精度高,但对设计和调优提出了更高要求。

Kimi则推出了线性注意力架构。它从根本上改变了注意力机制的计算方式,将计算复杂度从传统的O(n²)降低到O(n),从理论层面为长上下文的高效处理开辟了新道路。

稀疏注意力强调精准性,线性注意力追求高效性。重要的是,Kimi和DeepSeek同时在这两条路线上发力探索,为未来长上下文推理的规模化应用提供了更多元、更坚实的技术选项。

从「两个公司」到「一套基础设施」

DeepSeek和Kimi之间频繁的“偶遇”,远不止是技术圈的热闹谈资。它更深层的意义在于,正在悄然重塑中国AI产业的格局。

对比来看,GPT-4的参数量至今未正式公布(外界估计在1.8万亿左右),Claude 3.5 Opus同样选择闭源。而中国的这两家创业公司,不仅做出了同等量级的模型,更关键的是选择了全面开源。这意味着任何开发者、研究机构或企业,都能免费获取这些顶尖模型进行二次开发和私有化部署。

带来的直接变化是惊人的:企业私有化部署的成本被砍至原来的十分之一。让中小企业在自己的服务器上跑起万亿参数模型,这在一年前还是难以想象的事情。

开源生态的活力正在显现。在OpenRouter平台上,两家的API调用量稳居中国区前两名。在应用层,Kimi被海外爆款编程工具“套壳”接入,而DeepSeek则被日本乐天集团直接集成,包装成了全新的Rakuten AI 3.0。

这股来自东方的开源力量,已经引起了硅谷巨头的正视。

在Meta最新模型Muse Spark的官方技术博客中,Llama 4的性能被直接拿来与DeepSeek-V3.1以及Kimi-K2进行对比:

而在黄仁勋的CES主题演讲中,DeepSeek和Kimi K2-Thinking模型更是被赫然置于大屏幕,作为展示其下一代Blackwell与Rubin芯片强大性能的基准标杆:

与此同时,两家公司都在国产芯片的适配与应用上做出了实质性投入。DeepSeek V4首次深度适配华&为昇腾芯片,推理环节将运行在国产硬件之上。Kimi的Prefill-as-a-Service方案则提出了跨数据中心异构硬件推理框架,允许用不同类型的国产芯片分别承担Prefill和Decode阶段,实测吞吐量提升54%,首token延迟降低64%。这为国产芯片进入大模型推理的核心链条,打开了一个切实可行的切口。

黄仁勋曾在播客节目中说过一句意味深长的话:“芯片又不是铀浓缩,阻挡不了中国芯片的进步,他们依旧可以通过国产芯片来开发模型。”他或许没想到,DeepSeek和Kimi正在用实际行动,让这个未来加速到来。

结语:两个广东人,撑起中国 AI 的半边天

技术所能达到的高度,最终取决于开拓者的格局。

2023年同年起步,以最短时间双双叩开百亿美金估值的大门——DeepSeek与Kimi,始终保持着团队人数精简、但人才密度顶尖的配置。两位同样来自广东的创始人,杨植麟与梁文锋,既是技术的虔诚信徒,也被视为中国AI国家队的中坚力量。

在高层主持召开的经济形势专家和企业家座谈会上,两人时隔一年分别建言献策,这成为中国AI发展史上的一个有力注脚。他们各自引领着技术范式:DeepSeek向世界证明了“思维链”的威力,而Kimi则在国内点燃了“智能体”落地的浪潮。

在追逐AGI的这场马拉松中,没有哪家公司能闭门造车地跑完全程。DeepSeek与Kimi之间,存在竞争,更有共鸣。Muon与MLA的技术互通,在底层机制上惺惺相惜的探索,恰恰说明:中国AI真正的底气,从来不是某一家公司的单打独斗,而是在这种“偶遇”中碰撞出的技术火花,以及在开源生态里悄然生长、互利共生的繁荣体系。

双峰并峙,终将顶峰相见。属于中国大模型的万亿级航海时代,帷幕才刚刚拉开。

来源:https://36kr.com/p/3781956007730439

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
告别梅雨季与干洗烦恼,衣物护理机哪个好?两款万元级新品体验报告

告别梅雨季与干洗烦恼,衣物护理机哪个好?两款万元级新品体验报告

告别梅雨季与干洗烦恼,衣物护理机哪个好?两款万元级新品体验报告 生活品质上去了,新的烦恼也跟着来了。早上急着出门,高定西装上的折痕却让人瞬间没了底气;南方梅雨季一到,衣柜里总飘着一股若有若无的霉味;那些娇贵的真丝、羊绒,送干洗店耗时费力,自己动手又怕洗坏了。于是,一个问题自然浮出水面:衣物护理机,到

时间:2026-04-25 18:53
如何在RPA中配置浏览器和RPA工具

如何在RPA中配置浏览器和RPA工具

在RPA中配置浏览器与工具的通用指南 要想让RPA机器人流畅地完成网页自动化任务,第一步,也是最关键的一步,就是做好环境和工具的连接配置。这事儿听起来技术,其实拆解开来,按部就班地操作,过程远比想象中清晰。今天,咱们就一起把整个流程走一遍。 选择RPA工具 万事开头难,而好的开头是成功的一半。自动化

时间:2026-04-25 18:00
什么是大模型语言(LLM, Large Language

什么是大模型语言(LLM, Large Language

大模型语言:技术浪潮、核心优势与未来挑战 这几年,人工智能的发展势头确实有点猛。尤其在我们自然语言处理领域,大型语言模型的出现,堪称一次“范式转移”。它不再是实验室里的远眺,而已经真切地参与到各行各业之中。今天,我们就来系统梳理一下这股浪潮的脉络,看看它究竟强在哪里,用在哪里,以及未来还要克服哪些难

时间:2026-04-25 17:59
传统电商店铺如何智能化升级?

传统电商店铺如何智能化升级?

传统电商店铺实现智能化升级的路径 当前,传统电商店铺的智能化升级已成必然趋势,但具体该如何着手?关键不在于盲目引入技术,而在于遵循一套清晰的、循序渐进的实施路径。 一、明确升级目标 第一步,也是首要前提,就是设定清晰的升级目标。你的店铺智能化到底是为了什么?是旨在“提升销售额”,还是“精细化客户服务

时间:2026-04-25 17:59
RPA和人工智能有什么区别

RPA和人工智能有什么区别

RPA与人工智能:深入解析两者的本质区别 在数字化转型的浪潮中,RPA和人工智能常常被同时提及,有时甚至被混为一谈。这其实是个不小的误解。今天,我们就来厘清这两者的核心差异,看看它们究竟有何不同。 核心功能:是“执行手臂”还是“智能大脑”? 理解二者区别,首先得从功能定位上看。RPA,全称机器人流程

时间:2026-04-25 17:59
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程