当前位置: 首页
AI教程
英伟达智能体自主进化7天淘汰算子专家和GPU工程师

英伟达智能体自主进化7天淘汰算子专家和GPU工程师

热心网友 时间:2026-06-01
转载

这应该是今天刚刚出炉的、最炸裂的文章。

在很多算子开发的微信群里,消息刚出来就炸了锅。

「这或许是超人类智能在软件领域的真正首次展露。」英伟达的许冰在 X 上写下这样的断言。他说的,正是他与 Terry Chen 和 Zhifan Ye 共同一作的英伟达新研究——A VO。

本周四刚提交到 arXiv 的这篇论文里,英伟达提出了一类新型进化变异算子:Agentic Variation Operator(A VO)。它用自主编码智能体取代了经典进化搜索中那些固定的变异、交叉和人工设计的启发式方法,实际表现相当震撼。

许冰表示:「在一些高度优化的注意力机制工作负载中,智能体在没有人工干预的情况下,能在优化循环里连续搜索 7 天,结果超越了几乎所有人类 GPU 专家。」——这话听着,内核和 DSL 领域的同行们怕是都要坐不住了。

有意思的是,许冰在 X 推文里还分享了一个细节:一年半前他和 Terry Chen 刚开始在英伟达研究智能体编程时,两人压根不懂 GPU 编程。「所以从一开始我们就致力于开发完全自动化、无需人工干预的系统。」他们管这叫「盲编程(blind coding)」。

「在过去一年半的时间里,我们在两个智能体系统中开发了四代智能体。从第二代开始,这些智能体栈就开始自我演化。现在每个智能体的代码行数都约为 10 万行(非空代码)。」

他还特别强调 A VO 背后的意义:「我敢打赌:盲编程是软件工程的未来。人类认知能力是瓶颈。」

下面我们就来详细看看这篇可能开启「盲编程」新时代的论文,到底做出了什么贡献。

论文标题:A VO: Agentic Variation Operators for Autonomous Evolutionary Search

大语言模型已经成为进化搜索中的重要组件——用学习出来的代码生成,替代手工设计的变异算子。这些系统里,LLM 根据选定的父代生成候选解,而基于启发式的框架负责父代采样、评估和种群管理。这套组合在数学优化和算法发现领域成绩不错,FunSearch、AlphaEvolve 这些旗舰系统就是例子。

但是,把 LLM 限制在预设流水线里只干候选解生成这一件事,从根本上限制了它的发现能力:每次调用只能输出一个结果,没法主动查参考资料、测试自己的改动、解读反馈,或者提交前修正方案。对于那些早已被人工调优到极致的实现,想要再进一步,这种限制尤其致命。

研究者把目光投向了注意力机制——Transformer 的核心算子,也是 GPU 上被优化得最狠的目标之一。FlashAttention 系列和英伟达的 cuDNN 库,已经把历代 GPU 的注意力吞吐量推到了硬件极限;在最新的 Blackwell 架构上,FlashAttention-4 和 cuDNN 都花了数月人工优化。要想超越这些实现,必须跟开发环境持续迭代式交互:研究硬件文档、分析 Profiler 输出找瓶颈、实现并测试候选优化、诊断正确性问题,再根据经验修正策略。

深度智能体(Deep Agents)的最新进展表明,结合规划、持久内存和工具使用能力的 LLM,可以自主处理这类多步工程工作流——从解决复杂的 GitHub 问题到生成关键深度学习软件,都能干。这启发了一种截然不同的思路:与其把 LLM 锁在固定流水线里,不如让深度智能体直接担任变异算子。

于是,英伟达提出了智能体式变异算子(Agentic Variation Operators, A VO)。在这种模式下,一个自我导向的智能体取代了以往单轮 LLM 或固定工作流里的变异和交叉过程。A VO 智能体可以访问所有历史方案、特定领域的知识库和评估工具。它自己决定查什么、改哪里、什么时候评估,从而实现长周期内的持续改进。

为了验证效果,英伟达把 A VO 用到了 NVIDIA Blackwell B200 GPU 上的多头注意力(MHA)内核,直接跟专家优化的 cuDNN 和 FlashAttention-4 内核比。在完全没人干预、连续自主演化 7 天的情况下,智能体探索了超过 500 个优化方向,最终生成 40 个内核版本。结果,这个 MHA 内核在 BF16 精度下达到了最高 1668 TFLOPS 的吞吐量,在测试配置里分别超越 cuDNN 最高 3.5%,超越 FlashAttention-4 最高 10.5%。

英伟达分析了智能体发现的优化方案,发现这些优化覆盖了内核设计的多个层面——寄存器分配、指令流水线调度、负载分布,实打实的硬件级推理。而且实验表明,在 MHA 上找到的优化技术能有效迁移到分组查询注意力(GQA)上:智能体只花了 30 分钟额外自主适配,就把演化版 MHA 内核改成了支持 GQA,性能比 cuDNN 提升最高 7.0%,比 FlashAttention-4 提升 9.3%。

这项研究的主要贡献可以总结为三点:

  • 提出智能体式变异算子(A VO):把智能体从单纯的候选生成器提升为变异算子,通过与环境迭代交互,自主探索领域知识、实施修改并验证结果。

  • 实现 SOTA 性能:在 NVIDIA B200 GPU 上,基准测试配置中达到了 MHA 吞吐量 1668 TFLOPS,超越 cuDNN 最高 3.5%,超越 FlashAttention-4 最高 10.5%。而且这些优化能轻松迁移到 GQA,30 分钟自主演化就能获得显著增益。

  • 微架构优化分析:详细分析了智能体发现的优化,证明智能体在进行真正的硬件级推理,而非表层的代码变换。

告别流水线:AI 智能体成为真正的「进化操盘手」

在传统的基于 LLM 的进化搜索框架里,模型被困在固定流水线里,只能当候选代码生成器。每次调用只能出一个结果,没法主动查资料、测试代码、理解反馈,或者提交前修正策略。对深度迭代的顶级硬件优化来说,这个限制太致命了。

A VO 打破了这种局限,把「变异算子」实例化为一个自我驱动的智能体循环。这个 AI 智能体可以自由翻阅之前的代码版本记录,调用领域知识库(比如 CUDA 编程指南、PTX 架构文档),根据执行反馈主动提出、修复、批判和验证代码修改。简单说,A VO 把 AI 从被动的「代码生成器」提升成了掌握全局的「进化操盘手」。

7 天自主运转:在 Blackwell 架构上击败顶尖基准

研究团队把 A VO 放到一项极有挑战的任务上:在 NVIDIA Blackwell B200 GPU 上优化多头注意力(MHA)核心代码。注意力机制是 Transformer 的核心,也是 AI 芯片上被优化得最极致的计算目标之一。

在完全没有人干预的情况下,A VO 智能体连续自主运行了 7 天。这 7 天里,它在后台探索了超过 500 个优化方向,最终提交了 40 个有效迭代版本。最终生成的 MHA 核心在 BF16 精度下实现了 1668 TFLOPS 的吞吐量。

基准测试的结果令人惊叹:

  • 相比英伟达为 Blackwell 定制的闭源 cuDNN 库,吞吐量最高提升 3.5%。

  • 相比目前最前沿的开源基准 FlashAttention-4,吞吐量最高提升 10.5%。

强大的泛化能力:30 分钟迁移至分组查询注意力

更让人印象深刻的是,这些智能体发现的底层微架构优化并不是针对特定场景的过度拟合。当研究人员要求 A VO 把优化好的 MHA 核心适配到如今大模型常用的分组查询注意力(GQA)时,智能体只用了约 30 分钟的自主调整就完成了任务。

在 GQA 测试中,A VO 依然保持绝对领先:性能比 cuDNN 高出最高 7.0%,比 FlashAttention-4 高出最高 9.3%。这证明,智能体在 MHA 进化过程中发现的计算和内存访问优化模式,能有效泛化到不同计算特征的 GQA 任务上。

深入底层的微架构推理

分析 A VO 提交的代码变更可以看出,AI 智能体不是在搞表面功夫,而是在进行真正深入硬件底层的逻辑推理:

  • 无分支累加器重缩放:通过消除条件分支,智能体排除了 warp 同步开销,并替换了更轻量级的内存屏障,使得非因果注意力的吞吐量一次性提升了 8.1%。

  • 纠错与张量核心(MMA)流水线重叠:智能体重新组织了执行流水线,把原本顺序执行的依赖关系变成了交叠的流水线执行,大幅减少了硬件空闲等待时间。

  • 跨 warp 组的寄存器重新平衡:智能体通过分析性能分析器数据,发现某些运算组因为寄存器不足导致数据溢出至慢速本地内存。它果断对 Blackwell 的 2048 个寄存器预算进行重新分配,进一步压榨出 2.1% 的性能提升。

英伟达这项研究证明,AI 智能体已经具备了处理多硬件子系统(同步、内存排序、流水线调度、寄存器分配)联合推理的能力。A VO 作为一种不局限于特定领域的进化变异算子,为未来的自动化软件系统优化指明了道路。它不仅能用在 AI 芯片和深度学习底层生态的开发上,未来更有望在所有对算力有极致要求的科学和工程领域大展拳脚。

AI 智能体的自我进化能达到这种水平,你怕了吗?

来源:https://juejin.cn/post/7621374291867729930

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Typli AI智能写作,助你快速产出优质原创内容

Typli AI智能写作,助你快速产出优质原创内容

Typli AI:一站式AI写作助手功能详解与评测首先来深入了解Typli这款AI写作工具。它本质上是一款智能化的写作助手,但其覆盖的应用场景远比想象中更丰富——从日常的社交媒体文案、商务电子邮件,到专业的产品描述、故事创作,甚至还能根据文字内容自动生成配套配图。简单来说,它能将“从零到一”的内容创

时间:2026-06-01 12:20
AI长文一键生成可视化网页教程与提示词

AI长文一键生成可视化网页教程与提示词

在数字化转型的浪潮中,我们对信息处理方式的认知正在经历一场深刻变革。试想一下,那些曾经被视为工作标配的PDF文档与PPT演示文稿,现在是否让人感到有些“沉重”?密集的文字排列与一成不变的线性阅读流程,不仅容易造成读者的视觉疲劳,更关键的是,信息的核心价值往往在被动接收过程中被稀释了。 是否存在一种方

时间:2026-06-01 12:19
浙江大学DeepSeek系列第三期专题讲座课件PDF

浙江大学DeepSeek系列第三期专题讲座课件PDF

最近,浙江大学人工智能教育教学研究中心发布的两份专题讲座课件,在行业内引发了广泛关注。一份名为《走向数字社会:从数字社会到群体智慧》,另一份则是《语言解码双生花:人类经验与AI算法的镜像之旅》。这两份资料,与其说是简单的教学材料,不如说是一份脉络清晰的技术发展全景图,系统梳理了从人工智能哲学起源到当

时间:2026-06-01 12:19
wildAI全球人工智能一键直达聚合应用导航平台

wildAI全球人工智能一键直达聚合应用导航平台

今天分享一个经常被问到的工具——wildAI。 如果你在国内想用ChatGPT、Claude,它能帮忙解决绝大多数障碍。 先说基础功能:它支持ChatGPT、Claude、X等主流海外AI工具的订阅服务。更值得一提的是,它还提供接码服务(非一次性),注册验证这一步也能顺手搞定。同时,它有ChatGP

时间:2026-06-01 12:18
后端开发者仿Claude Code项目:2000行Java从零实现,面试30分钟

后端开发者仿Claude Code项目:2000行Java从零实现,面试30分钟

今年 Ja va 后端的实习岗位中,职位描述里开始出现一些新趋势:大模型应用、Agent 开发、MCP 协议、LangChain 等关键词。 面试官一天筛选 50 份简历,几乎都是“精通 Spring Boot、熟悉 Redis”的模板——早已看腻。 因此有了这个项目:纯 Java 编写,仅 200

时间:2026-06-01 12:18
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程