当前位置: 首页
AI资讯
百度正式开源Agent开发框架LoongFlow 谷歌AlphaEvolve进化结果刷新

百度正式开源Agent开发框架LoongFlow 谷歌AlphaEvolve进化结果刷新

热心网友 时间:2026-05-28
转载

如果让AI来复刻爱迪生的发明,结果会怎样?这听起来像是一场思想实验,但百度最新开源的LoongFlow框架,已经将这个问题推向了现实——并且交出了一份相当亮眼的成绩单。

先看几组关键数据:在数学领域,基于LoongFlow的智能体在11个问题上超越了人类数学家已知的最佳结果;在7个问题上刷新了Google AlphaEvolve的进化记录;在模拟Kaggle数据科学竞赛的MLE-bench评测中,独立斩获23枚金牌。与同类进化智能体相比,其进化效率提升了超过60%,迭代成功率达到100%。

这些数字背后,隐藏着一个根本性的追问:AI究竟应该如何思考,才能解决那些真正复杂的现实难题?

智商与方法的距离:当聪明遇到复杂

爱迪生发明灯泡的故事,常常被简化为“坚持就是胜利”的励志教材——6000多次实验,最终找到了碳化竹丝。但换个角度看,如果他在每一次失败后都只是盲目地换一种材料,恐怕上万次尝试也未必能成功。真正让爱迪生与众不同的,是他从失败中提炼规律的能力:碳化竹丝为何比铂丝更耐用?这种“观察失败-总结规律-指导下一步”的闭环,才是取得突破的关键。

把场景拉回到今天,AI要面对的复杂任务,几乎都具有同样的特征:

  • 可能性空间巨大:成千上万种材料、不同的处理工艺、多种形状尺寸
  • 需要多轮迭代:不能一次性得出答案,必须“尝试-观察-调整”循环
  • 结果反馈延迟:只有完整实施后,才能知道效果如何
  • 需要积累智慧:每一次失败都应让下一次尝试更聪明

这类任务的共同点是:光有强大的计算能力和海量知识远远不够,还需要一套能够引导探索、积累经验、避免重复错误的思考框架。在商业世界中,这样的场景比比皆是——新药研发要从上万种化合物中筛选有效成分,芯片设计要在数十亿种布局中探索最优电路,城市规划需要构建动态模型来平衡交通与生活。这些任务的解空间之浩瀚,早已超出人力“试错”的极限,需要的是一种全新的范式:将人类顶尖的思维框架与机器无限的执行算力深度结合。

Agent演进:从“单步执行”到“持续进化”

为了让AI从“博学的参谋”成长为能自主解决复杂问题的“专家”,智能体技术沿着一条清晰的路径在进化。

阶段一:让Agent一步步思考——解决单任务的推理智能体

以ReAct范式为代表,这类智能体学会了在单个任务中进行“推理-行动-观察”的逐步思考。比如问它“今天北京天气如何,并推荐一家餐厅”,它会先推理“我需要调用天气API”,执行查询后,再根据结果推理“现在需要搜索餐厅排行榜”。本质上,这是一个针对单任务的序列决策模型,善于解决有明确步骤的线性问题,像一个可靠的“单任务执行者”。

阶段二:让Agent一代代进化——挑战长程任务的进化智能体

当目标变成“发现一个超越现有水平的新算法”或“优化一个机器学习pipeline”时,单次推理就不够用了。这需要在多轮迭代中保持方向、积累智慧。以AlphaEvolve、OpenEvolve为代表的进化智能体框架引入了新思路:它们维护一个“解决方案种群”,通过评估、选择、优化调整来一代代进化。本质上是面向长期目标的种群优化器。

然而,早期的进化智能体常常把大语言模型当作一个随机调整器,导致进化过程像蒙着眼睛随机漫步,效率低下。虽然引入了“进化”的概念,但在“如何智能地进化”这个关键问题上,还有巨大的提升空间。

至此,需求已经非常明确:我们需要一个真正会思考、会学习的智能体——既能具备进化智能体的长期迭代能力,又能拥有推理智能体的深度思考和因果分析能力,并且将二者深度融合。

LoongFlow:开源的“专家级思考”框架

LoongFlow(龙流)正是为满足这一需求而生的开发框架。它的命名,致敬了王阳明“龙场悟道”所揭示的“知行合一”真谛——真知必在于行,而行必有真知指导。这恰恰契合框架的抱负:打破AI认知与行动之间的隔阂,让专业的经验与方法在持续的智能实践中转化为可进化、可复用的生产力。

核心目标很明确:帮助开发者将自身的专业经验,快速转化为具备长程复杂推理能力的AI智能体。通过开源,这个框架期待与全球开发者和领域专家共同构建一个生态——让每个人都能创造自己领域的专家级AI生产力。

LoongFlow的核心创新在于两套相互咬合的设计:PES范式混合进化记忆系统。它们系统化地实现了“如何智能地进化”这个命题。

  • PES范式:为进化注入“科学家思维”。LoongFlow没有把进化交给随机性,而是为每一次迭代设计了结构化的认知阶段:规划、执行、总结。这确保了每次尝试都是目的明确、过程可控、结果可学的,从根本上将“随机漫步”转变为“定向探索”。
  • 混合进化记忆系统:构建专属的“战略智库”。框架为智能体配备了一套精密的经验管理系统——不仅仅是存储过去的解决方案,更是按照策略与特征进行分类、索引与动态调取,确保历史智慧能被高效复用,防止探索陷入重复或僵局。

二者结合,LoongFlow实现了从“随机演化”到“定向认知进化”的范式升维。智能体的探索不再是蒙眼狂奔,而是在历史智慧照亮下的、有策略的远征。

实战验证:顶尖竞技场上的性能标杆

任何方法的价值,最终都要靠实践来检验。基于LoongFlow框架,百度百舸团队开发了“通用算法发现”和“机器学习”两个开箱即用的Agent,它们在多项高难度测试中的表现,验证了框架的普适性与领先性。

数学成就:全面刷新人类与AI的纪录

在陶哲轩和AlphaEvolve发布的数学挑战中,LoongFlow取得了令人瞩目的成绩:在11个问题上超越了人类数学家已知最佳结果,在7个问题上超越谷歌AlphaEvolve的进化结果,刷新SOTA。例如,在“圆填充”问题中——如何在给定形状内排列多个圆,使它们互不重叠且尽可能填满空间?LoongFlow找到了比数学家多年探索和AlphaEvolve进化结果更优的排列方式。

刷新 Google AlphaEvolve 进化结果,百度开源 Agent 开发框架 LoongFlow

工程成就:在23项真实挑战中夺得金牌

在OpenAI发布的模拟Kaggle数据科学竞赛的MLE-bench评测中,由LoongFlow驱动的机器学习智能体已独立斩获23枚金牌。任务涵盖从“病理切片癌症检测”到“预测火山喷发”等高度专业且数据复杂的现实场景。这证明LoongFlow不仅能解决抽象数学问题,更具备构建、优化端到端工业级解决方案的工程能力。

效率成就:以60%的效率优势稳定胜出

在相同任务下,与OpenEvolve、ShinkaEvolve等进化智能体框架对比:进化效率提升超60%,用最少的生成评估次数发现最好的结果;迭代成功率100%,在多次重复实验中稳定达成目标,而基线方法常因陷入局部最优或进化太慢而失败。这意味着,使用LoongFlow,研究者与企业能以显著更低的计算成本与时间成本,获得更可靠、更优质的解决方案。

专家级思考机制解构:智慧如何从系统中涌现

LoongFlow的高效,源于其精妙的架构设计。微观上的认知循环与宏观上的经验管理紧密协同,催生出系统的智慧。

PES范式:高质量的定向认知循环

PES(Plan-Execute-Summarize)是驱动每一次迭代的核心引擎,它确保进化过程中的每一步都是深思熟虑的。

  • Plan:在生成新一代方案前,智能体扮演“战略分析师”的角色。它首先深度分析当前采样方案,然后检索“战略智库”中所有的历史经验与失败教训,最终制定出一份目标清晰、规避已知陷阱的“进化蓝图”。这从根本上杜绝了盲目尝试。
  • Execute:“执行”阶段如同配备了全系专业工具包的智能施工队。关键在于“因题施策”的动态适配能力:面对数学证明,它是严谨的“逻辑验证器”;编写代码时,它是即写即测的“交互解释器”;进行数据分析时,它又化身为高效的“智能查询生成器”。这种灵活性,结合“快速本地验证”机制,确保了高质量输出,从源头节省了计算资源。
  • Summarize:行动之后,“总结”模块承担起“复盘官”的职责。它不满足于简单的得分,而是深入剖析“规划蓝图”与“执行结果”之间的差距,提炼出“为何成功或失败”的因果洞察。这些结构化的经验被转化为下一代规划时可检索的宝贵知识。

混合进化记忆系统:体系化的经验治理

如果说PES是单次探索的“优质生产线”,那么混合进化记忆系统就是确保整个探索事业可持续发展的“智慧管理体系”。

  • 多岛模型:它在内部建立多个独立的“探索特区”,允许不同的技术路线并行发展,相互隔离又定期交流,有效维持了探索的多样性,避免思维过早趋同。
  • MAP-Elites:它如同一个多维的“杰出方案陈列馆”。系统不仅按成绩,更按行为特征(如算法复杂度、计算效率)对解决方案进行归档。这意味着,一个在某项特性上表现极佳但总分并非最高的方案,同样会被珍藏,为未来的跨界创新保留火种。
  • 自适应玻尔兹曼选择:这个模块是智能的“资源调度官”。它根据种群探索的实时状态,动态调节关键参数,智能切换策略——是在全局鼓励冒险开拓新边疆,还是在局部集中力量深耕最优领地。

系统的协同魔力:1 + 1 > 2

PES范式与混合进化记忆系统并非独立运作,它们的深度耦合是效能的倍增器。规划时,分析师从“战略智库”中获取精选、多样化的历史方案作为蓝图依据;执行时,施工队利用动态适配的工具进行快速自我质检,确保只将高潜力方案提交给耗时的最终评估;总结时,复盘官产出的因果洞察又被系统化地反馈回“战略智库”,持续丰富集体智慧。正是这种微观认知与宏观管理在每一个迭代周期内的紧密配合,使得LoongFlow的整个探索过程呈现出强大的方向性、累积性和加速性,从而能够高效攻克那些令传统方法望而却步的长程复杂任务。

从千次试错到百次探索:AI解题的范式转变

回到那个经典问题:爱迪生寻找灯丝实验了上千次,如果AI来做,几次能成?

基于LoongFlow在实际复杂任务中的表现,我们看到的是一个根本性的转变。在类似规模的探索空间中,传统随机搜索可能需要成千上万次尝试,而LoongFlow的定向认知进化方法,能够减少约60%以上的无效探索,并将迭代成功率提升至接近100%。这意味着,如果爱迪生当时拥有这样的系统,寻找合适灯丝的过程可能从“上千次盲目试错”压缩为“数百次智能探索”——每一次尝试都建立在前一次的经验总结之上,每一次失败都直接指引着下一次的方向。

但这不仅仅是数字上的缩减。LoongFlow带来的真正价值在于范式的变革:它将人类“假设-检验-学习”的科学精神,以软件架构的形式固化、增强并规模化。它让智能体不再是单纯消耗算力进行蛮力搜索,而是能够像最严谨的科学家那样,有策略地规划、有工具地执行、有深度地反思。从“随机试错”到“定向思考”,这标志着AI解决问题方式的质变——答案不再依赖于尝试的次数,而是源于思考的深度与系统性。

开源共建:让专业经验转化为AI生产力

未来的AI生产力,既需要强大的基础模型,更需要千行百业沉淀的专业经验与之结合。LoongFlow的开源发布,正是为了搭建这样一座桥梁——让领域专家无需成为AI技术专家,也能将自己的专业知识转化为高效的智能体。

我们诚邀全球开发者、研究人员和行业专家加入这一开源旅程:参与贡献实际任务案例,为感兴趣的领域(如生物信息、材料科学、金融分析等)设计挑战,丰富测试集,推动框架的泛化能力;开发领域专家智能体,基于LoongFlow框架封装所在领域的专业知识与工作流,创造可直接应用的专家级AI助手;完善框架生态,贡献新的工具组件、可视化界面或性能监控模块,让LoongFlow更易用、更强大。

来源:https://www.53ai.com/news/OpenSourceLLM/2026012139754.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
专为设计师打造的免费一站式配色在线工具箱

专为设计师打造的免费一站式配色在线工具箱

专为设计师打造的免费配色工具箱完成重构,分为配色库、色卡对照表、渐变色背景、色彩百科、工作台及工具库等模块,新增场景预览与AI智能配色功能,支持本地存储,无需登录即可使用。

时间:2026-05-29 07:44
ClawBot如何用A/B测试优化对话转化率

ClawBot如何用A/B测试优化对话转化率

ClawBot对话转化率优化这件事,说起来其实并没有那么玄乎——核心就是搞清楚用户的真实意图,然后在合适的时机用最对的方式去回应。但真正落地做起来,不少团队会发现:明明部署了好几套对话策略,客户从触发智能助手到最终完成关键动作(比如提交表单、点击咨询按钮、跳转商品页)的转化率,始终卡在一个不上不下的

时间:2026-05-29 07:44
OpenAI首席执行官萨姆奥尔特曼计划改进人工智能

OpenAI首席执行官萨姆奥尔特曼计划改进人工智能

OpenAI首席执行官萨姆·奥尔特曼走访22国讨论人工智能监管后,决定改进ChatGPT。改进方向包括更好地适应非英语场景,以及提升模型识别自身生成内容的能力,帮助用户分辨AI与真人原创内容。

时间:2026-05-29 07:44
程序员提示工程实战案例手册

程序员提示工程实战案例手册

提示工程已成为开发者与AI协作的核心能力,系统梳理了提升AI编程助手代码生成质量的7个实用技巧,通过角色设定、明确上下文、任务分解等模式,可显著优化输出质量,实现高效协作。

时间:2026-05-29 07:44
AI工作流优化利器Prompt提示词管理社区

AI工作流优化利器Prompt提示词管理社区

针对Prompt分散存储导致检索困难和复用低效的问题,一个管理工具提供个人结构化提示词库与社区提示词广场。个人库支持分类、搜索和版本迭代;广场可浏览他人优质Prompt并一键克隆进行二次定制,将Prompt从消耗品转为可积累的数字资产。

时间:2026-05-29 07:44
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程