谷歌与DeepMind联手推进人工智能进化之路
这项由谷歌、谷歌DeepMind与威斯康星大学麦迪逊分校合作的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.07039。
一、当AI学会“复盘”:从机械搜索到经验内化
许多复杂问题的答案,并非直接查询可得,而是需要通过反复“尝试”来探索。例如,如何设计更稳定的蛋白质结构、寻找更优的服务器负载均衡算法,或是优化视频推荐系统的精准度。这类问题通常没有标准答案,其“优劣”必须通过实际运行来验证,过程往往耗时费力。
近年来,一个显著趋势是让大型语言模型——即具备文本生成和代码编写能力的AI——来承担这种“边试边改”的探索性工作。其基本流程是:AI审视当前最佳方案,提出修改建议,测试新方案效果,保留更优者,并循环此过程。这套方法被称为“进化搜索”,其逻辑类似于生物进化,通过迭代筛选逼近最优解。
该思路已在数学发现、算法优化等领域取得显著成果。例如,谷歌的AlphaEvolve就采用类似方法,在矩阵乘法、圆填充等经典难题上刷新了纪录。然而,一个核心问题也随之凸显:在多数进化搜索系统中,AI的“决策策略”是固定不变的。它并未从历次成功与失败中真正学习,只是机械地重复同一套提议逻辑。换言之,搜索经验虽被记录,却未被“内化”为AI自身的判断力。
这好比一位棋手,每局对弈后只存档记录,从不复盘。历史数据就在眼前,却未能转化为真正的“棋感”或直觉。
而本论文提出的PACEvolve++,正是为了解决这一关键瓶颈而生。
二、架构分离:让“战略家”与“执行者”各司其职
为了让AI在搜索过程中真正学会“哪些方向值得探索”,研究团队设计了一个巧妙的双模型架构:将“决定尝试什么”(战略决策)和“具体实现代码”(战术执行)两项职责,分配给两个独立的AI模型。
负责“决定尝试什么”的,是一个被称为顾问模型的角色。它参数量较小,但可通过强化学习持续优化其决策偏好。在每一轮搜索开始时,它会综合分析当前最优方案、过往搜索历史与失败记录,进行头脑风暴,生成若干候选方向,评估其新颖性与潜力,最终挑选出最具希望的一个,并用自然语言进行描述。
负责“具体编写代码”的,则是一个更强大的前沿代码模型。它接收顾问提供的方向描述,并将其准确翻译为可实际运行的程序代码。
这种分工具有深刻的现实考量。在复杂的机器学习工程任务中,一个仅数十亿参数的小模型,往往难以可靠地将一个复杂的抽象思路完整无误地实现——代码可能出错,逻辑可能存在漏洞。结果便是,我们无法区分一次失败究竟是源于想法本身不佳,还是仅仅因为代码实现有误。当训练信号被实现质量所污染,AI便难以习得真正有价值的搜索判断力。
将两者分离,使得强化学习能够专注于训练“想法的质量”,而不受代码实现能力高低的干扰。顾问模型所学到的,是“在此类问题中,何种方向通常能带来突破”这种隐性的搜索直觉,而非如何正确调用某个特定Python库的语法细节。
三、进化搜索的双阶段困境:需要动态适应的奖励机制
将顾问模型与代码模型分离,解决了“由谁来学习”的问题。但更棘手的挑战在于:这个顾问模型应如何从搜索过程中获取有效的反馈并进行学习?
强化学习的核心逻辑是:做出决策后,若结果好则增强该决策的概率,反之则减弱。但在进化搜索的语境下,“结果好坏”的定义会随着搜索进程发生根本性变化。
可以用登山比赛来类比这个过程。比赛初期,各队伍选择的路线差异巨大,有人走山脊,有人沿溪谷,海拔差距明显。此阶段,很容易判断哪条路线更有前途,反馈信号清晰有力。然而,当所有队伍都接近山顶时,大家挤在同一片狭小区域,彼此高度相差无几。此时,微小的海拔差异很可能只是测量误差。若仍简单地采用“谁高就奖励谁”的规则,反而会引入噪声,导致训练混乱。
进化搜索中的奖励信号,正经历了这样一个从清晰到模糊、从差异显著到高度收敛的过程。早期,不同候选方案在机制和质量上差异悬殊,传统的“组内相对评分”方法非常有效——只需将本轮所有尝试的得分进行标准化,即可获得清晰的好坏信号。但到了后期,当所有方案都演变为当前最佳方案的微调版本时,奖励分数会高度集中,组内相对评分法会将微小的数值差异放大成夸张的梯度信号,导致训练不稳定,如同将显微镜下的噪点误认为真实特征。
另一方面,一些研究采用了“最大化前k个结果”的目标。这种方法专注于让最好的几个候选方案脱颖而出,但其问题在于过早地将资源集中于少数方向,导致探索的多样性迅速枯竭——好比登山队尚未抵达半山腰就全部挤进同一条小路,一旦此路不通,便陷入僵局。
研究团队对这两种困境进行了清晰诊断。实验图像显示,基线方法的策略熵(衡量探索多样性的关键指标)会急剧下跌或剧烈震荡,梯度更新幅度也会出现突刺式飙升,这些都是训练失稳的典型信号。
四、相位自适应强化学习:动态切换的智能评估尺
针对上述困境,研究团队设计了一套名为“相位自适应强化学习”的创新训练方法。其核心思想是:在搜索的不同阶段,动态采用最适合的方式为顾问模型提供学习信号。
在搜索早期,即各方案差异显著的探索阶段,使用“组内原始相对得分”作为主要信号。具体而言,是将每个候选方案的得分减去本轮的平均分,保留一个直接反映相对优劣的信号,而不进行过度的归一化压缩。同时,团队借鉴了“不对称裁剪”技术,确保那些出现概率较低但结果优异的探索方向,仍能获得足够的正向激励,避免模型过早排斥这些有价值的小概率尝试。
在搜索后期,即各方案性能已非常接近的精细优化阶段,则切换为一种名为“SLOO前沿贡献信号”的方法。这种方法的逻辑在于:与其追问“你这次比平均水平高了多少”,不如判断“如果随机抽取k个候选方案,你是否贡献了其中的最高分”。换言之,它奖励的不是相对的高低,而是“是否推动了当前性能的最优边界”。这种信号对奖励的绝对大小不敏感,即使所有方案的分数紧密聚集,它依然能稳健地识别出真正带来边际改进的那个。
对应于这两个阶段的两种信号,在整个训练过程中被设计为线性混合:初始阶段完全依赖组内相对信号,随着搜索推进,平滑地增加前沿贡献信号的权重,直至训练结束时完全转向后者。这个过渡是连续渐变的,而非生硬切换,如同调光旋钮让两种光线自然融合。
为避免两种信号因数值范围差异导致训练不稳定,研究团队在混合前会对每种信号分别进行标准化处理,将其缩放至同一尺度后再按比例相加。当检测到某个信号的方差低于一个极小的阈值——意味着该信号已退化为纯粹的数值噪声——系统会直接跳过本轮梯度更新,防止噪声污染模型参数。
研究团队还为这套方法提供了严谨的数学论证,证明了无论奖励因搜索收敛被压缩到多小,经过标准化后,两种信号都能维持一个有界的、有意义的信用分配结构,不会因奖励尺度的变化而失效。
五、进度归一化奖励:统一多任务评估的标尺
进化搜索常常需要处理多样化的目标任务:有些指标追求最大化(如准确率),有些则追求最小化(如误差),且其数值范围千差万别。若直接将原始数值用于强化学习训练,无异于用同一把尺子同时测量体重和身高,必然导致混乱与不稳定。
为此,研究团队设计了一套“进度归一化奖励”机制。它将每个任务的当前得分,换算成一个0到1之间的“进度比例”——0代表任务初始状态,1代表理想目标状态——然后再线性映射到0到5的统一奖励区间。如果某次评估运行失败或产生无效结果,则直接赋予-1的惩罚分数。通过这种方式,无论面对何种任务、何种量纲的指标,训练信号都被归一化到同一尺度,模型得以从中进行稳定、高效的学习。
六、实战检验:在三大真实场景中超越基线
研究团队在三个源自真实工业和科研场景的任务上,系统性地测试了PACEvolve++的性能,并与多种主流基线方法进行了全面比较。
任务一:专家并行负载均衡算法优化
该任务来源于DeepSeek公司的混合专家模型服务系统。这类模型在运行时,需将不同计算子任务动态分配给不同的“专家”子网络。如何将这些专家智能地分配到各计算设备上,使得每台设备的计算负载尽可能均衡,同时分配算法本身要高效低耗,是一个经典的算法设计优化问题。AI需要自动发现一套高效的分配策略,评估指标是负载均衡性与算法执行速度的算术平均。
任务二:序列化视频推荐模型进化
具体是在KuaiRec数据集上,进化出一个性能更优的“下一个视频推荐模型”。该数据集来自快手短视频平台,包含约7176个用户、10728个视频内容项目和1250万条用户交互记录。AI可调整的范围包括用户序列特征的构建方式、编码器的神经网络架构、评分模块的逻辑设计等。评估指标是NDCG@10、命中率@10和MRR的均值,每次评估需完整训练推荐模型16轮,最长允许耗时20分钟。
任务三:蛋白质组合突变适应度预测
该任务源自一篇发表在《科学》杂志上的真实蛋白质工程研究。当蛋白质在多个氨基酸位点同时发生突变时,如何准确预测这种组合突变对蛋白质功能(适应度)的影响,是领域内的核心挑战。实验设定是:AI只能看到单点突变和双点突变的训练数据,然后需要预测三个或更多位点同时发生突变的结果。评估指标是预测值与真实值之间的皮尔逊相关系数和Precision@5的加权组合。
在这三个任务中,所有对比方法都在同一套PACEvolve搜索框架内运行,核心区别仅在于训练顾问模型时所使用的强化学习算法不同。测试涵盖了ThetaEvolve使用的GRPO、TTT-Discover使用的熵加权目标、纯PKPO以及无强化学习的随机搜索基线,最后与PACEvolve++进行对比。测试使用了两种参数规模的开源模型作为顾问,代码实现则统一交由强大的Gemini模型完成。
结果显示,PACEvolve++在三个任务上都取得了最高的最终性能得分,且收敛速度最快。在负载均衡任务上,PACEvolve++与无强化学习的基线最终都达到了接近理论最优的饱和解,但前者仅用了后者约一半的迭代次数便达成目标。在推荐系统和蛋白质预测任务上,PACEvolve++收敛到了比所有基线方法都更高的性能天花板。
辅助诊断指标的表现同样具有说服力:ThetaEvolve在训练后期频繁出现梯度范数的尖峰式飙升,印证了奖励压缩后方差爆炸的问题;Max@k方法的策略熵从约1.0单调下跌至0.4以下,表明其探索多样性过早崩溃;TTT-Discover的训练过程则在多个任务上出现了熵值的急剧塌缩。相比之下,PACEvolve++的梯度范数始终平稳地维持在1附近的窄幅区间内,策略熵也保持在比Max@k高得多的健康水平,整个训练过程平稳而有序。
从分项指标看,各方法找到的最优方案在不同维度上各有侧重。例如在负载均衡任务中,有的方案更侧重于极致均衡但速度稍慢,有的则追求极速但均衡性略逊,这说明各方法探索的是同一个帕累托前沿上的不同最优解。PACEvolve++在综合得分上领先,但并非在每一个单项指标上都占优,这客观反映了多目标优化中性能权衡的普遍存在。
七、分工的必要性:为何不采用端到端大模型?
一个很自然的疑问是:既然最终目标是进行强化学习,为何不直接训练一个庞大的端到端模型,让它同时负责构思想法和编写代码?这样岂不是架构更简单?
研究团队在论文中对此有明确回应,并在附录中做了专门分析。他们发现,对于本研究所涉及的三个任务的代码复杂度而言,一个仅有40亿到80亿参数的小模型,端到端生成完整、正确修改代码的成功率极低——代码经常无法运行,或运行后逻辑存在错误。在这种情况下,奖励信号主要反映的是“代码是否写对”,而非“想法方向是否优质”。于是,ThetaEvolve风格的端到端训练在这些任务上根本无法有效工作,强化学习的信号被大量实现错误的噪声所淹没。
这一发现具有普遍意义:在模型能力有限、任务实现复杂度高的现实场景中,将策略学习与代码实现能力强耦合在一起,往往会导致两者都无法学好。顾问与实现者的职能分工,是在计算资源受限条件下一个切实有效的工程解决方案,而不仅仅是一个理论上的优雅设计。
八、研究的启示与未来展望
归根结底,PACEvolve++的核心贡献在于让AI在一次次搜索尝试中,真正学会积累并运用“什么值得尝试”的经验。它不满足于让AI的搜索经验仅仅临时存储在上下文窗口中,而是致力于将这些经验沉淀、内化为模型参数中稳定的判断偏好与直觉。
此事的意义深远:如果搜索过程中的经验仅靠上下文存储,那么每次重启搜索,AI都需从头开始摸索;而如果经验能内化为模型的决策习惯,那么AI对某一类问题搜索得越多,其搜索直觉就越敏锐,效率也越高。这是一种更接近人类专家成长路径的学习范式。
当然,本研究也坦诚指出了其局限性。由于强化学习训练本身的计算成本高昂,加上每次评估候选方案都需要完整训练一个机器学习模型,整体实验开销巨大。因此,研究团队未能进行多次重复实验以验证统计显著性,也未能在更长的搜索周期上检验方法的长期效果。未来,随着代码生成模型能力的进一步提升,或许可以探索让参数更小的模型也能可靠实现复杂想法,从而进一步探索端到端优化的可能性。
一个值得深思的延伸问题是:如果进化搜索本身能持续产生“可供学习的内化经验”,那么随着时间推移,AI在特定专业领域内的搜索效率是否会呈现指数级的提升?这种“越搜索越聪明”的能力,与人类专家依靠长期经验积累来提升专业判断力的过程,存在多少本质上的相似性?这或许是人工智能与自动化科学发现交叉领域中,下一个值得深入探索的方向。
常见问题解答 (Q&A)
Q1:PACEvolve++中的顾问模型和代码模型具体分工是什么?
A:顾问模型核心职责是进行“战略决策”,即“决定尝试什么方向”。它会综合分析当前最优方案和历史搜索记录,生成多个候选研究方向,评估其新颖性与潜力,并筛选出最有希望的一个,用自然语言描述出来。代码模型则负责“战术执行”,即“如何编写代码”,将顾问给出的抽象方向准确翻译成可实际运行的程序代码。这种分工的核心优势在于,使强化学习能够纯净地学习“想法质量”,免受代码实现错误引入的噪声干扰。
Q2:相位自适应强化学习为何需要在不同搜索阶段切换激励方式?
A:这是因为进化搜索前期和后期的任务特性截然不同。搜索早期,候选方案差异巨大,“组内相对打分”能清晰、直接地反映方案的相对优劣。但到了搜索后期,所有方案性能都接近最优,分数高度集中,此时若仍使用相对打分,会将微小的随机波动(噪声)放大成虚假的强梯度信号,导致训练不稳定。因此,后期改用“前沿贡献信号”,它只关注某个方案是否改进了当前已知的最优结果,对奖励的绝对值不敏感,从而在收敛阶段也能提供稳定的训练信号。两种信号在训练过程中会平滑过渡、混合使用。
Q3:PACEvolve++在蛋白质适应度预测任务中具体优化了什么?
A:在该任务中,PACEvolve++需要解决的核心问题是:仅使用单点和双点突变的训练数据,来预测三个及以上位点同时发生组合突变对蛋白质功能的影响。系统通过顾问模型不断提出改进方向,这些方向可能涉及突变特征的表示方法、突变位点间相互作用的建模方式、模型正则化策略等。代码模型将这些方向实现为具体代码并进行评估,优化目标为预测值与真实值之间的皮尔逊相关系数和Precision@5的加权得分。最终,PACEvolve++在该任务上取得了超越所有基线方法的综合性能。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
阿里钉钉文档全功能解析在线协同办公套件使用指南
钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流
商汤小浣熊智能助手基于自研大语言模型
在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办
MiniMax新一代智能模型矩阵全面解析与应用指南
在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M
智能客服机器人解决方案:AI客服系统提升企业服务效率
在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练
开源企业答疑工具Danswer:高效解决团队知识管理难题
Danswer 是一款专为企业设计的开源智能问答平台,支持用户使用自然语言直接提问,并能够从公司内部文档、知识库等私有数据源中快速检索,提供带有精准来源引用的可靠答案。 核心功能:它如何解答问题? Danswer 的核心价值在于实现了“智能问答”。用户无需再花费大量时间手动搜索和翻阅各类文件,只需像
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

