当前位置: 首页
科技数码
7天重构GPU团队:英伟达23人如何用AI颠覆传统工作流

7天重构GPU团队:英伟达23人如何用AI颠覆传统工作流

热心网友 时间:2026-03-26
转载

AI在7天内自主完成了通常需要专家数月甚至数年的GPU内核优化,而且结果比自己家的王牌产品还快10%——今天,学术预印本平台arXiv上发布了一项被视为可能彻底改变软件和芯片优化方式的突破性研究。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


这一研究由NVIDIA组建的一支23人的顶级团队完成,名为《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》(AVO:用于自主进化搜索的智能体变异算子)。

简单来说,AVO(Agentic Variation Operators,智能体变异算子)是让AI自己当起了“程序员+架构师+测试员”的合体,去探索人类工程师可能永远想不到的底层代码优化方案,最终在英伟达最新的Blackwell(B200)GPU上,写出了比当今最顶尖人类专家团队(如cuDNN和FlashAttention-4)编写的代码还要快10%以上的高性能计算内核。

值得注意的是,其核心开发者许冰在X上表示,他一开始根本不懂GPU编程,也由此开启了这一段“盲编码”的探索——也许,“不懂”才是最大的优势,人类的认知反而会成为进化的局限。

再见!传统进化算法的局限

想象一下,你有一套非常精密的计算程序(比如现在最火的AI模型中的“注意力机制”),这套程序要在显卡(GPU)上跑得飞快。为了达到这个目标,专业的程序员们通常要花费几个月甚至几年时间,手动调整代码、优化内存访问、设计特殊算法,最终才能比通用版本快个20%、30%。

但这些手工优化有个大问题:太慢了、太依赖个人经验了。硬件在变、算法在变,每次都需要重新优化。

为了自动化这个过程,科学家们想到了“进化算法”:就像生物进化一样,随机生成一批代码,测试哪个跑得快,保留快的,变异出下一代,不断重复。但这个方法有个致命缺陷:变异操作是“盲目的”——传统进化算法中的"变异"就是简单的随机修改、交换代码片段。这就好比你想让猴子打出莎士比亚的作品,纯靠随机敲键盘是不行的。

而且,传统的进化算法和“大模型辅助设计”思路,通常把AI(大语言模型)限定在一个固定的流程里。比如,人类设定好规则(“变异”和“交叉”),让AI生成一堆代码候选方案,然后由人类或另一个程序来筛选和测试。


AVO的革命性在于,它彻底颠覆了这个关系。 它不再把AI当作流程中的一个“候选生成器”,而是将整个变异过程本身,交给一个自主的智能体循环来完成。这个智能体拥有更高的权限和更全面的视角,它可以:

查阅整个进化家谱:查看当前所有代码版本的优劣和历史。调用领域知识库:学习特定领域(如GPU硬件架构)的专门知识。分析执行反馈:根据代码的实际运行性能数据,进行自我诊断。

基于这些信息,这个智能体可以自主完成提出修改、修复错误、批判方案、验证结果等一系列完整动作。这就像一个不知疲倦、知识渊博且具备批判性思维的全栈工程师,在持续地重构和优化代码。


实战成绩:在最难优化的战场上击败人类冠军

为了证明AVO的强大,研究团队选择了一个公认的“硬骨头”作为测试场:注意力机制(Attention)的计算内核。这是驱动当今所有大语言模型(如ChatGPT、Gemini)的核心组件,也是全球顶尖工程师和科学家投入巨资、激烈优化的焦点。英伟达的cuDNN和Tri Dao团队的FlashAttention系列,就是这一领域的标杆。

在让AVO在最新的NVIDIA Blackwell (B200)显卡上运行7天后,实验的结果惊人:



超越cuDNN:AVO形成的多头注意力(Multi-Head Attention,MHA)计算内核,在测试的各项配置中,性能超越了cuDNN高达3.5%。cuDNN是NVIDIA自家工程师花了多年打磨的闭源库,AVO一个AI系统跑了7天就超越了它。这相当于学生超越了老师,而且这个老师已经是全世界最好的。超越FlashAttention-4:比学术界最先进注意力计算方法FlashAttention-4快10.5%。这种程度的提升已经可以称之为革命性的突破了。迁移能力:更神奇的是,AVO优化好的代码还能举一反三——在MHA上进化7天的成果,迁移到GQA(Grouped-Query Attention,分组查询注意力)只需30分钟就能获得7%-9%的提升。说明AVO学到的不是死记硬背的特定优化,而是通用的优化策略和思维方式。微架构级别的深度优化:AVO发现的优化不是简单的换个算法,而是深入到GPU寄存器分配、warp调度、流水线时序的微架构级别。这说明AI已经具备了理解硬件底层行为的能力。这意味着什么?

传统方法像是在填空题里选答案,而AVO像是在开放题中自由发挥,可以探索各种可能性。而且,AVO不是靠猜什么优化有用,而是真正运行代码、测量性能,用数据驱动进化。同时,智能体会从每次尝试中学习,失败的尝试也有价值,告诉它这条路不通。

AVO让AI像真正的程序员一样,会学习、会思考、会测试,最终写出了比人类专家还快的代码。这是AI优化自身能力的重要一步。

从其进化结果来看,对AI硬件优化意味着:更快的大模型训练,如果注意力机制计算能加速10%,整个大模型训练都能更快;降低硬件门槛,同样的硬件能跑更大的模型,或者同样的模型能用更便宜的硬件;解放专家,不再需要顶尖优化工程师花费数月手工调优。

从这一AI研究方向而言,这篇论文证明了一个重要观点:AI不仅可以用来自动化任务,还可以用来自动化优化本身。未来可能会有更多“AI优化AI”的场景。

结语

这篇论文全部23位作者涵盖了AI编译器、高性能计算、计算机视觉、生成式AI等多个顶级子方向——AI智能体编程先锋(Terry Chen, 许冰)、 AI编译器之父(陈天奇)、NVIDIA研究VP(Ming-Yu Liu)、 GPU内核专家(John Tran, Andrew Kerr)、注意力机制专家(Ali Hassani)、学术界权威(Humphrey Shi, Luis Ceze),以及系统工程支撑团队。

这是一个从理论到工程、从学术到产品全链路覆盖的顶级团队。AVO不是一篇试试看的探索性论文,而是NVIDIA精心布局的战略级成果。

从更宏观的视角看,AVO代表了AI研发范式的又一次进化。它不再满足于让AI生成内容或遵循指令,而是赋予其长期的、目标导向的、具备反思能力的自主探索权。它也为我们打开了一扇门:未来,在芯片设计、编译器优化、算法创新等需要极度专业知识和创造力的领域,自主进化的AI智能体可能成为人类最得力的“共研者”。它们可以不知疲倦地探索人类思维难以触及的“微观架构”组合空间,加速我们迈向更强大、更高效计算未来的进程。

或许,这项研究正像一颗投入湖面的石子,其涟漪将逐渐扩散至整个计算产业的每一个角落。

论文地址 https://arxiv.org/pdf/2603.24517v1

来源:https://www.163.com/dy/article/KOVCSOON05118O92.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
2030年6G将商用?中关村泛联院金毅敦详解发展前景

2030年6G将商用?中关村泛联院金毅敦详解发展前景

全球6G标准制定竞争激烈,中国在2026年政府工作报告明确提出要培育发展6G未来产业,当下有何布局?3月27日,在中关村论坛期间,中关村泛联院专职副院长金毅敦接受媒体采访时表示,我国自2019年开始

时间:2026-03-28 14:55
荣耀Win游戏本4月发布:泡泡玛特推IP家电新品 | 封面

荣耀Win游戏本4月发布:泡泡玛特推IP家电新品 | 封面

三角洲行动烽火职业联赛指定笔记本!荣耀WIN游戏本定档4月发布3月27日,荣耀正式官宣荣耀WIN游戏本将于4月正式发布。作为2026三角洲行动烽火职业联赛最新指定笔记本,荣耀WIN游戏本凭借性能与散

时间:2026-03-28 14:55
星环科技年营收4.5亿,腾讯减持背后的港股价局

星环科技年营收4.5亿,腾讯减持背后的港股价局

雷递网 雷建平 3月28日星环信息科技(上海)股份有限公司(简称:“星环科技”)日前递交招股书,准备在港交所上市。星环科技是2024年10月在科创板上市,当时发行价为47 34元,发行3021万股,

时间:2026-03-28 14:55
AI流量倒挂前夜:智能体已掏空互联网旧金矿

AI流量倒挂前夜:智能体已掏空互联网旧金矿

Agentic Internet来了。当地时间2026年3月26日,网络安全公司HUMAN Security发布年度报告《AI 流量与网络威胁基准状态》(The 2026 State of AI T

时间:2026-03-28 14:55
京东“异狼”升级:从单臂到双臂,快递效率迎来起飞

京东“异狼”升级:从单臂到双臂,快递效率迎来起飞

快科技3月28日消息,京东物流推出异狼机械臂升级版,完成从单臂到双臂的核心迭代,大幅提升仓储包裹分拣效率。异狼机械臂专为包裹抓取和码垛设计,依托超脑AI大模型的具身模型,京东物流成为业内唯一将具身机

时间:2026-03-28 14:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程