英伟达智能体自主进化7天淘汰算子专家和GPU工程师

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

英伟达智能体自主进化7天淘汰算子专家和GPU工程师

热心网友时间：2026-06-01

转载

这应该是今天刚刚出炉的、最炸裂的文章。

在很多算子开发的微信群里，消息刚出来就炸了锅。

「这或许是超人类智能在软件领域的真正首次展露。」英伟达的许冰在 X 上写下这样的断言。他说的，正是他与 Terry Chen 和 Zhifan Ye 共同一作的英伟达新研究——A VO。

本周四刚提交到 arXiv 的这篇论文里，英伟达提出了一类新型进化变异算子：Agentic Variation Operator（A VO）。它用自主编码智能体取代了经典进化搜索中那些固定的变异、交叉和人工设计的启发式方法，实际表现相当震撼。

许冰表示：「在一些高度优化的注意力机制工作负载中，智能体在没有人工干预的情况下，能在优化循环里连续搜索 7 天，结果超越了几乎所有人类 GPU 专家。」——这话听着，内核和 DSL 领域的同行们怕是都要坐不住了。

有意思的是，许冰在 X 推文里还分享了一个细节：一年半前他和 Terry Chen 刚开始在英伟达研究智能体编程时，两人压根不懂 GPU 编程。「所以从一开始我们就致力于开发完全自动化、无需人工干预的系统。」他们管这叫「盲编程（blind coding）」。

「在过去一年半的时间里，我们在两个智能体系统中开发了四代智能体。从第二代开始，这些智能体栈就开始自我演化。现在每个智能体的代码行数都约为 10 万行（非空代码）。」

他还特别强调 A VO 背后的意义：「我敢打赌：盲编程是软件工程的未来。人类认知能力是瓶颈。」

下面我们就来详细看看这篇可能开启「盲编程」新时代的论文，到底做出了什么贡献。

论文标题：A VO: Agentic Variation Operators for Autonomous Evolutionary Search

大语言模型已经成为进化搜索中的重要组件——用学习出来的代码生成，替代手工设计的变异算子。这些系统里，LLM 根据选定的父代生成候选解，而基于启发式的框架负责父代采样、评估和种群管理。这套组合在数学优化和算法发现领域成绩不错，FunSearch、AlphaEvolve 这些旗舰系统就是例子。

但是，把 LLM 限制在预设流水线里只干候选解生成这一件事，从根本上限制了它的发现能力：每次调用只能输出一个结果，没法主动查参考资料、测试自己的改动、解读反馈，或者提交前修正方案。对于那些早已被人工调优到极致的实现，想要再进一步，这种限制尤其致命。

研究者把目光投向了注意力机制——Transformer 的核心算子，也是 GPU 上被优化得最狠的目标之一。FlashAttention 系列和英伟达的 cuDNN 库，已经把历代 GPU 的注意力吞吐量推到了硬件极限；在最新的 Blackwell 架构上，FlashAttention-4 和 cuDNN 都花了数月人工优化。要想超越这些实现，必须跟开发环境持续迭代式交互：研究硬件文档、分析 Profiler 输出找瓶颈、实现并测试候选优化、诊断正确性问题，再根据经验修正策略。

深度智能体（Deep Agents）的最新进展表明，结合规划、持久内存和工具使用能力的 LLM，可以自主处理这类多步工程工作流——从解决复杂的 GitHub 问题到生成关键深度学习软件，都能干。这启发了一种截然不同的思路：与其把 LLM 锁在固定流水线里，不如让深度智能体直接担任变异算子。

于是，英伟达提出了智能体式变异算子（Agentic Variation Operators, A VO）。在这种模式下，一个自我导向的智能体取代了以往单轮 LLM 或固定工作流里的变异和交叉过程。A VO 智能体可以访问所有历史方案、特定领域的知识库和评估工具。它自己决定查什么、改哪里、什么时候评估，从而实现长周期内的持续改进。

为了验证效果，英伟达把 A VO 用到了 NVIDIA Blackwell B200 GPU 上的多头注意力（MHA）内核，直接跟专家优化的 cuDNN 和 FlashAttention-4 内核比。在完全没人干预、连续自主演化 7 天的情况下，智能体探索了超过 500 个优化方向，最终生成 40 个内核版本。结果，这个 MHA 内核在 BF16 精度下达到了最高 1668 TFLOPS 的吞吐量，在测试配置里分别超越 cuDNN 最高 3.5%，超越 FlashAttention-4 最高 10.5%。

英伟达分析了智能体发现的优化方案，发现这些优化覆盖了内核设计的多个层面——寄存器分配、指令流水线调度、负载分布，实打实的硬件级推理。而且实验表明，在 MHA 上找到的优化技术能有效迁移到分组查询注意力（GQA）上：智能体只花了 30 分钟额外自主适配，就把演化版 MHA 内核改成了支持 GQA，性能比 cuDNN 提升最高 7.0%，比 FlashAttention-4 提升 9.3%。

这项研究的主要贡献可以总结为三点：

提出智能体式变异算子（A VO）：把智能体从单纯的候选生成器提升为变异算子，通过与环境迭代交互，自主探索领域知识、实施修改并验证结果。
实现 SOTA 性能：在 NVIDIA B200 GPU 上，基准测试配置中达到了 MHA 吞吐量 1668 TFLOPS，超越 cuDNN 最高 3.5%，超越 FlashAttention-4 最高 10.5%。而且这些优化能轻松迁移到 GQA，30 分钟自主演化就能获得显著增益。
微架构优化分析：详细分析了智能体发现的优化，证明智能体在进行真正的硬件级推理，而非表层的代码变换。

告别流水线：AI 智能体成为真正的「进化操盘手」

在传统的基于 LLM 的进化搜索框架里，模型被困在固定流水线里，只能当候选代码生成器。每次调用只能出一个结果，没法主动查资料、测试代码、理解反馈，或者提交前修正策略。对深度迭代的顶级硬件优化来说，这个限制太致命了。

A VO 打破了这种局限，把「变异算子」实例化为一个自我驱动的智能体循环。这个 AI 智能体可以自由翻阅之前的代码版本记录，调用领域知识库（比如 CUDA 编程指南、PTX 架构文档），根据执行反馈主动提出、修复、批判和验证代码修改。简单说，A VO 把 AI 从被动的「代码生成器」提升成了掌握全局的「进化操盘手」。

7 天自主运转：在 Blackwell 架构上击败顶尖基准

研究团队把 A VO 放到一项极有挑战的任务上：在 NVIDIA Blackwell B200 GPU 上优化多头注意力（MHA）核心代码。注意力机制是 Transformer 的核心，也是 AI 芯片上被优化得最极致的计算目标之一。

在完全没有人干预的情况下，A VO 智能体连续自主运行了 7 天。这 7 天里，它在后台探索了超过 500 个优化方向，最终提交了 40 个有效迭代版本。最终生成的 MHA 核心在 BF16 精度下实现了 1668 TFLOPS 的吞吐量。

基准测试的结果令人惊叹：

相比英伟达为 Blackwell 定制的闭源 cuDNN 库，吞吐量最高提升 3.5%。
相比目前最前沿的开源基准 FlashAttention-4，吞吐量最高提升 10.5%。

强大的泛化能力：30 分钟迁移至分组查询注意力

更让人印象深刻的是，这些智能体发现的底层微架构优化并不是针对特定场景的过度拟合。当研究人员要求 A VO 把优化好的 MHA 核心适配到如今大模型常用的分组查询注意力（GQA）时，智能体只用了约 30 分钟的自主调整就完成了任务。

在 GQA 测试中，A VO 依然保持绝对领先：性能比 cuDNN 高出最高 7.0%，比 FlashAttention-4 高出最高 9.3%。这证明，智能体在 MHA 进化过程中发现的计算和内存访问优化模式，能有效泛化到不同计算特征的 GQA 任务上。

深入底层的微架构推理

分析 A VO 提交的代码变更可以看出，AI 智能体不是在搞表面功夫，而是在进行真正深入硬件底层的逻辑推理：

无分支累加器重缩放：通过消除条件分支，智能体排除了 warp 同步开销，并替换了更轻量级的内存屏障，使得非因果注意力的吞吐量一次性提升了 8.1%。
纠错与张量核心（MMA）流水线重叠：智能体重新组织了执行流水线，把原本顺序执行的依赖关系变成了交叠的流水线执行，大幅减少了硬件空闲等待时间。
跨 warp 组的寄存器重新平衡：智能体通过分析性能分析器数据，发现某些运算组因为寄存器不足导致数据溢出至慢速本地内存。它果断对 Blackwell 的 2048 个寄存器预算进行重新分配，进一步压榨出 2.1% 的性能提升。

英伟达这项研究证明，AI 智能体已经具备了处理多硬件子系统（同步、内存排序、流水线调度、寄存器分配）联合推理的能力。A VO 作为一种不局限于特定领域的进化变异算子，为未来的自动化软件系统优化指明了道路。它不仅能用在 AI 芯片和深度学习底层生态的开发上，未来更有望在所有对算力有极致要求的科学和工程领域大展拳脚。

AI 智能体的自我进化能达到这种水平，你怕了吗？

来源:https://juejin.cn/post/7621374291867729930

上一篇： AIGC工具在教育应用中的潜力与挑战分析

下一篇： Khanmigo智能AI助手助力教育者学生家长提升学习效率与体验