百度正式开源Agent开发框架LoongFlow 谷歌AlphaEvolve进化结果刷新

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

百度正式开源Agent开发框架LoongFlow 谷歌AlphaEvolve进化结果刷新

热心网友时间：2026-05-28

转载

如果让AI来复刻爱迪生的发明，结果会怎样？这听起来像是一场思想实验，但百度最新开源的LoongFlow框架，已经将这个问题推向了现实——并且交出了一份相当亮眼的成绩单。

先看几组关键数据：在数学领域，基于LoongFlow的智能体在11个问题上超越了人类数学家已知的最佳结果；在7个问题上刷新了Google AlphaEvolve的进化记录；在模拟Kaggle数据科学竞赛的MLE-bench评测中，独立斩获23枚金牌。与同类进化智能体相比，其进化效率提升了超过60%，迭代成功率达到100%。

这些数字背后，隐藏着一个根本性的追问：AI究竟应该如何思考，才能解决那些真正复杂的现实难题？

智商与方法的距离：当聪明遇到复杂

爱迪生发明灯泡的故事，常常被简化为“坚持就是胜利”的励志教材——6000多次实验，最终找到了碳化竹丝。但换个角度看，如果他在每一次失败后都只是盲目地换一种材料，恐怕上万次尝试也未必能成功。真正让爱迪生与众不同的，是他从失败中提炼规律的能力：碳化竹丝为何比铂丝更耐用？这种“观察失败-总结规律-指导下一步”的闭环，才是取得突破的关键。

把场景拉回到今天，AI要面对的复杂任务，几乎都具有同样的特征：

可能性空间巨大：成千上万种材料、不同的处理工艺、多种形状尺寸
需要多轮迭代：不能一次性得出答案，必须“尝试-观察-调整”循环
结果反馈延迟：只有完整实施后，才能知道效果如何
需要积累智慧：每一次失败都应让下一次尝试更聪明

这类任务的共同点是：光有强大的计算能力和海量知识远远不够，还需要一套能够引导探索、积累经验、避免重复错误的思考框架。在商业世界中，这样的场景比比皆是——新药研发要从上万种化合物中筛选有效成分，芯片设计要在数十亿种布局中探索最优电路，城市规划需要构建动态模型来平衡交通与生活。这些任务的解空间之浩瀚，早已超出人力“试错”的极限，需要的是一种全新的范式：将人类顶尖的思维框架与机器无限的执行算力深度结合。

Agent演进：从“单步执行”到“持续进化”

为了让AI从“博学的参谋”成长为能自主解决复杂问题的“专家”，智能体技术沿着一条清晰的路径在进化。

阶段一：让Agent一步步思考——解决单任务的推理智能体

以ReAct范式为代表，这类智能体学会了在单个任务中进行“推理-行动-观察”的逐步思考。比如问它“今天北京天气如何，并推荐一家餐厅”，它会先推理“我需要调用天气API”，执行查询后，再根据结果推理“现在需要搜索餐厅排行榜”。本质上，这是一个针对单任务的序列决策模型，善于解决有明确步骤的线性问题，像一个可靠的“单任务执行者”。

阶段二：让Agent一代代进化——挑战长程任务的进化智能体

当目标变成“发现一个超越现有水平的新算法”或“优化一个机器学习pipeline”时，单次推理就不够用了。这需要在多轮迭代中保持方向、积累智慧。以AlphaEvolve、OpenEvolve为代表的进化智能体框架引入了新思路：它们维护一个“解决方案种群”，通过评估、选择、优化调整来一代代进化。本质上是面向长期目标的种群优化器。

然而，早期的进化智能体常常把大语言模型当作一个随机调整器，导致进化过程像蒙着眼睛随机漫步，效率低下。虽然引入了“进化”的概念，但在“如何智能地进化”这个关键问题上，还有巨大的提升空间。

至此，需求已经非常明确：我们需要一个真正会思考、会学习的智能体——既能具备进化智能体的长期迭代能力，又能拥有推理智能体的深度思考和因果分析能力，并且将二者深度融合。

LoongFlow：开源的“专家级思考”框架

LoongFlow（龙流）正是为满足这一需求而生的开发框架。它的命名，致敬了王阳明“龙场悟道”所揭示的“知行合一”真谛——真知必在于行，而行必有真知指导。这恰恰契合框架的抱负：打破AI认知与行动之间的隔阂，让专业的经验与方法在持续的智能实践中转化为可进化、可复用的生产力。

核心目标很明确：帮助开发者将自身的专业经验，快速转化为具备长程复杂推理能力的AI智能体。通过开源，这个框架期待与全球开发者和领域专家共同构建一个生态——让每个人都能创造自己领域的专家级AI生产力。

LoongFlow的核心创新在于两套相互咬合的设计：PES范式和混合进化记忆系统。它们系统化地实现了“如何智能地进化”这个命题。

PES范式：为进化注入“科学家思维”。LoongFlow没有把进化交给随机性，而是为每一次迭代设计了结构化的认知阶段：规划、执行、总结。这确保了每次尝试都是目的明确、过程可控、结果可学的，从根本上将“随机漫步”转变为“定向探索”。
混合进化记忆系统：构建专属的“战略智库”。框架为智能体配备了一套精密的经验管理系统——不仅仅是存储过去的解决方案，更是按照策略与特征进行分类、索引与动态调取，确保历史智慧能被高效复用，防止探索陷入重复或僵局。

二者结合，LoongFlow实现了从“随机演化”到“定向认知进化”的范式升维。智能体的探索不再是蒙眼狂奔，而是在历史智慧照亮下的、有策略的远征。

实战验证：顶尖竞技场上的性能标杆

任何方法的价值，最终都要靠实践来检验。基于LoongFlow框架，百度百舸团队开发了“通用算法发现”和“机器学习”两个开箱即用的Agent，它们在多项高难度测试中的表现，验证了框架的普适性与领先性。

数学成就：全面刷新人类与AI的纪录

在陶哲轩和AlphaEvolve发布的数学挑战中，LoongFlow取得了令人瞩目的成绩：在11个问题上超越了人类数学家已知最佳结果，在7个问题上超越谷歌AlphaEvolve的进化结果，刷新SOTA。例如，在“圆填充”问题中——如何在给定形状内排列多个圆，使它们互不重叠且尽可能填满空间？LoongFlow找到了比数学家多年探索和AlphaEvolve进化结果更优的排列方式。

刷新 Google AlphaEvolve 进化结果，百度开源 Agent 开发框架 LoongFlow

工程成就：在23项真实挑战中夺得金牌

在OpenAI发布的模拟Kaggle数据科学竞赛的MLE-bench评测中，由LoongFlow驱动的机器学习智能体已独立斩获23枚金牌。任务涵盖从“病理切片癌症检测”到“预测火山喷发”等高度专业且数据复杂的现实场景。这证明LoongFlow不仅能解决抽象数学问题，更具备构建、优化端到端工业级解决方案的工程能力。

效率成就：以60%的效率优势稳定胜出

在相同任务下，与OpenEvolve、ShinkaEvolve等进化智能体框架对比：进化效率提升超60%，用最少的生成评估次数发现最好的结果；迭代成功率100%，在多次重复实验中稳定达成目标，而基线方法常因陷入局部最优或进化太慢而失败。这意味着，使用LoongFlow，研究者与企业能以显著更低的计算成本与时间成本，获得更可靠、更优质的解决方案。

专家级思考机制解构：智慧如何从系统中涌现

LoongFlow的高效，源于其精妙的架构设计。微观上的认知循环与宏观上的经验管理紧密协同，催生出系统的智慧。

PES范式：高质量的定向认知循环

PES（Plan-Execute-Summarize）是驱动每一次迭代的核心引擎，它确保进化过程中的每一步都是深思熟虑的。

Plan：在生成新一代方案前，智能体扮演“战略分析师”的角色。它首先深度分析当前采样方案，然后检索“战略智库”中所有的历史经验与失败教训，最终制定出一份目标清晰、规避已知陷阱的“进化蓝图”。这从根本上杜绝了盲目尝试。
Execute：“执行”阶段如同配备了全系专业工具包的智能施工队。关键在于“因题施策”的动态适配能力：面对数学证明，它是严谨的“逻辑验证器”；编写代码时，它是即写即测的“交互解释器”；进行数据分析时，它又化身为高效的“智能查询生成器”。这种灵活性，结合“快速本地验证”机制，确保了高质量输出，从源头节省了计算资源。
Summarize：行动之后，“总结”模块承担起“复盘官”的职责。它不满足于简单的得分，而是深入剖析“规划蓝图”与“执行结果”之间的差距，提炼出“为何成功或失败”的因果洞察。这些结构化的经验被转化为下一代规划时可检索的宝贵知识。

混合进化记忆系统：体系化的经验治理

如果说PES是单次探索的“优质生产线”，那么混合进化记忆系统就是确保整个探索事业可持续发展的“智慧管理体系”。

多岛模型：它在内部建立多个独立的“探索特区”，允许不同的技术路线并行发展，相互隔离又定期交流，有效维持了探索的多样性，避免思维过早趋同。
MAP-Elites：它如同一个多维的“杰出方案陈列馆”。系统不仅按成绩，更按行为特征（如算法复杂度、计算效率）对解决方案进行归档。这意味着，一个在某项特性上表现极佳但总分并非最高的方案，同样会被珍藏，为未来的跨界创新保留火种。
自适应玻尔兹曼选择：这个模块是智能的“资源调度官”。它根据种群探索的实时状态，动态调节关键参数，智能切换策略——是在全局鼓励冒险开拓新边疆，还是在局部集中力量深耕最优领地。

系统的协同魔力：1 + 1 > 2

PES范式与混合进化记忆系统并非独立运作，它们的深度耦合是效能的倍增器。规划时，分析师从“战略智库”中获取精选、多样化的历史方案作为蓝图依据；执行时，施工队利用动态适配的工具进行快速自我质检，确保只将高潜力方案提交给耗时的最终评估；总结时，复盘官产出的因果洞察又被系统化地反馈回“战略智库”，持续丰富集体智慧。正是这种微观认知与宏观管理在每一个迭代周期内的紧密配合，使得LoongFlow的整个探索过程呈现出强大的方向性、累积性和加速性，从而能够高效攻克那些令传统方法望而却步的长程复杂任务。

从千次试错到百次探索：AI解题的范式转变

回到那个经典问题：爱迪生寻找灯丝实验了上千次，如果AI来做，几次能成？

基于LoongFlow在实际复杂任务中的表现，我们看到的是一个根本性的转变。在类似规模的探索空间中，传统随机搜索可能需要成千上万次尝试，而LoongFlow的定向认知进化方法，能够减少约60%以上的无效探索，并将迭代成功率提升至接近100%。这意味着，如果爱迪生当时拥有这样的系统，寻找合适灯丝的过程可能从“上千次盲目试错”压缩为“数百次智能探索”——每一次尝试都建立在前一次的经验总结之上，每一次失败都直接指引着下一次的方向。

但这不仅仅是数字上的缩减。LoongFlow带来的真正价值在于范式的变革：它将人类“假设-检验-学习”的科学精神，以软件架构的形式固化、增强并规模化。它让智能体不再是单纯消耗算力进行蛮力搜索，而是能够像最严谨的科学家那样，有策略地规划、有工具地执行、有深度地反思。从“随机试错”到“定向思考”，这标志着AI解决问题方式的质变——答案不再依赖于尝试的次数，而是源于思考的深度与系统性。

开源共建：让专业经验转化为AI生产力

未来的AI生产力，既需要强大的基础模型，更需要千行百业沉淀的专业经验与之结合。LoongFlow的开源发布，正是为了搭建这样一座桥梁——让领域专家无需成为AI技术专家，也能将自己的专业知识转化为高效的智能体。

我们诚邀全球开发者、研究人员和行业专家加入这一开源旅程：参与贡献实际任务案例，为感兴趣的领域（如生物信息、材料科学、金融分析等）设计挑战，丰富测试集，推动框架的泛化能力；开发领域专家智能体，基于LoongFlow框架封装所在领域的专业知识与工作流，创造可直接应用的专家级AI助手；完善框架生态，贡献新的工具组件、可视化界面或性能监控模块，让LoongFlow更易用、更强大。

来源:https://www.53ai.com/news/OpenSourceLLM/2026012139754.html

上一篇：灰度研报：HYPE市盈率14倍对标Robinhood还有多少空间

下一篇： CodeBuddy与Sourcegraph Cody代码搜索及大型代码库理解优劣对比