俄勒冈州立大学联合研发AI团队进化技术

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

俄勒冈州立大学联合研发AI团队进化技术

热心网友时间：2026-05-20

转载

一项由俄勒冈州立大学、威斯康星大学麦迪逊分校、强生公司和宾夕法尼亚州立大学联合进行的人工智能研究，近期以预印本形式发布于arXiv平台，论文编号为arXiv:2605 11136。这项研究提出了一个革命性的多智能体协作框架，旨在解决当前AI团队协作效率低下的根本问题。一、AI团队协作的根本性挑战：

一项由俄勒冈州立大学、威斯康星大学麦迪逊分校、强生公司和宾夕法尼亚州立大学联合进行的人工智能研究，近期以预印本形式发布于arXiv平台，论文编号为arXiv:2605.11136。这项研究提出了一个革命性的多智能体协作框架，旨在解决当前AI团队协作效率低下的根本问题。

一、AI团队协作的根本性挑战：为何“多数投票”会失败？

想象一下，你管理着一支由五位专家组成的团队。面对复杂难题，你是让他们各自独立工作然后简单汇总结果，还是组织他们深度协作、优势互补、共享经验？答案显然是后者，这才是高效团队的核心。

然而，在人工智能领域，当前的主流多模型协作方法却更接近前者：将多个AI模型并列放置，各自独立生成答案，最后仅通过“多数投票”来决定最终输出——即哪个答案出现频率最高就选择哪个。

这一矛盾引起了研究团队的深度关注。他们观察到一个关键悖论：当任务难度极高，单个AI模型的成功率仅有20%时，“多数投票”策略会完全失效。因为此时正确的答案往往是少数派，反而会被大量的错误答案所淹没。数学计算证实：五个成功率为20%的AI，采用多数投票后得到正确答案的概率会暴跌至约5.8%，甚至低于单个AI的表现。

正是这一发现，促使研究者提出了一个更本质的问题：我们能否让多个AI像一支有机的、持续进化的团队那样工作，而不是简单重复单个AI的学习过程？他们的答案是肯定的，并为此设计了一个名为EVOCHAMBER的创新框架。该框架的精妙之处在于，它能使AI团队在无需重新训练模型的前提下，仅通过任务经验的积累就实现自发的、持续的进化。

二、进化的三个层次：从个体到种群的系统性优化

要理解EVOCHAMBER框架的核心，可以将其类比为一间顶级咨询公司的运作。公司拥有众多顾问，每接到新项目，管理层都需要决策：派遣哪几位顾问？他们如何分工协作？项目中学到的经验如何在整个组织内分享？公司的人员结构是否需要随业务变化而调整？

这四个问题，恰好对应了EVOCHAMER所定义的三个核心进化层次。

首先是“个体层次进化”。每个AI都拥有一个私有的经验记忆库。每次完成任务后，AI会复盘自己的推理过程、团队的最终决策以及任务结果，从中提炼出两类知识：一类是针对特定问题领域的专项策略（例如解决某种几何题的技巧），另一类则是跨领域通用的元认知策略（例如“遇到复杂问题先分解”）。这些知识被分类存储。当遇到新任务时，AI会从自己的记忆库中检索最相关的经验作为参考。同时，每个AI都有一个动态更新的“能力评分”，记录其在各类任务上的历史表现，近期表现权重更高。

其次是“团队层次进化”，这决定了执行任务的成员构成及其协作方式。关键在于避免总是派遣“最强的几个AI”，否则强者会垄断经验，导致团队多样性丧失和成员发展不均。为此，研究团队设计了三个互补的角色：

锚定者：在当前任务类型中表现最佳的AI，负责把握主体方向和最终决策。
补充者：从剩余AI中选出，选择标准是既在该任务类型上有一定能力，又与锚定者有良好的合作历史，且其解题风格能与锚定者形成互补。
探索者：专门从很少接触此类任务的AI中选出，目的是为团队引入新的视角和经验，拓宽知识边界。

团队组建完成后，锚定者还需从四种协作模式中智能选择一种：投票、辩论、生成-评审或问题分解。具体模式的选择基于历史经验，并且这种选择能力本身也会随着实践不断学习和优化。

最后是“种群层次进化”，它管理着整个AI池的知识流动与成员结构。这是EVOCHAMBER与以往所有方法最本质的区别，也是其实现“1+1>2”协同效应的关键。

三、CODREAM机制：实现精准、非对称的知识传递

种群层次进化的核心是一个名为CODREAM（协作梦境）的机制。当团队任务失败，或成员间出现重大意见分歧时，该机制便会触发一次深度的集体反思会议，其核心目标是实现知识从强者向弱者的精准传递。

“梦境”一词形象地描述了这一事后学习过程，如同人类在睡眠中整理和消化白天的经验。一次完整的CODREAM反思包含五个步骤：

反思：每位成员私下审视自己本次任务的得失。
对比：将失败者与成功者的行为进行对比，提炼出关键差异。
想象：将这些差异转化为可应用于未来类似情境的策略性假设。
辩论：团队成员互相评审这些策略假设，淘汰不合理的部分。
结晶：将通过辩论考验的洞见整理成结构化知识条目，并标注其适用范围和级别。

最关键的一步在于知识的分发：这些结晶出的知识，不会广播给所有AI，而是精准地写入那些在该类任务上表现低于团队中位数的AI个体的记忆库中。这种“非对称知识传递”至关重要——将代数技巧灌输给已精通代数的AI是冗余干扰，但传递给在此方面存在短板的AI，则能有效弥补能力差距。

对照实验数据强有力地证明了CODREAM的价值：当关闭此机制，仅保留团队组建功能时，整体表现与单个AI无异。这意味着，没有高效的知识流动，再精心的团队组合也无法超越个体能力的简单叠加。

四、生命周期管理：AI团队的动态结构与新陈代谢

种群层次的另一部分是动态的生命周期管理。系统会定期评估整个AI池的状态，并执行以下核心操作以优化整体结构：

分裂：对持续表现出色的AI进行克隆，赋予新个体略微不同的专注方向，探索相邻能力。
合并：当两个AI能力高度重叠时，将其合并为一个，整合两者记忆，避免资源冗余。
修剪：淘汰连续多次表现显著低于平均水平的AI。
创生：当遇到全新类型的任务，且池中无相关经验AI时，孵化一个全新的AI从零开始学习。

此外，还有“专化”操作，用于调整高表现AI的定位，使其在未来团队组建中更易被识别为特定领域专家。

这套机制确保了AI团队的结构能够随着任务流的变化而动态演化，如同一个有机组织能够根据市场变化调整其部门架构和人才配置。

五、实验验证：在多元高难度任务流上的卓越表现

为全面评估EVOCHAMBER，研究团队设计了三条涵盖不同领域和难度的任务流进行测试。

1. 困难数学流：包含382道高难度数学题。在最富挑战性的AIME竞赛题上，单个AI成功率仅10%-17%。EVOCHAMBER整体准确率达到63.9%，比最佳基线方法高出32%，是单个AI表现的两倍以上。在AIME 2024题目上，其准确率达40%，而“多数投票”方法仅为3.3%，完美验证了其在低成功率场景下的优势。

2. 困难编程流：包含422道编程题。在竞赛级的CodeContests题目子集上，EVOCHAMBER准确率达到35.2%，是单个AI的5倍多。值得注意的是，其他具备记忆机制的对比方法在此表现反而差于单个AI，说明低效的知识管理会引入噪声干扰。

3. AFlow综合流：包含六个不同领域的600道题目，用于测试跨领域适应能力。EVOCHAMBER以87.1%的总准确率领先所有基线，尤其在需要知识迁移的高难数学和编程领域优势显著。

即使用更强的GPT-4.1-mini模型测试，EVOCHAMBER依然保持领先，在AIME题目上比单个模型高出10.7个百分点。

六、消融实验：揭示核心驱动力的贡献

通过逐一移除框架组件，研究团队量化了每个模块的贡献。

将智能团队组建替换为随机组队，性能下降2.4%。将智能协作模式选择替换为强制投票，性能下降3.0%。这表明团队层面的设计有效，但贡献有限。

然而，当关闭最核心的CODREAM知识传递机制时，性能骤降10.8个百分点。在依赖多步推理的任务上，下跌尤为剧烈（如复杂推理任务从86.0%跌至48.0%）。这强有力地证明，跨智能体的、非对称的知识传递是整个框架性能提升的核心驱动力。

另一关键对照实验显示：仅拥有多个AI但关闭CODREAM，其表现与单个AI完全相同。真正的增益完全来源于高效的知识流动机制。

七、涌现现象：专家与知识网络的自主形成

除了性能数据，研究团队还观察到了令人印象深刻的“涌现”现象。

20个完全相同的AI从零开始，未被预设任何专业方向。随着任务推进，稳定的分工格局自发形成：每个任务类别都自然涌现出一个主力专家，且不同类别的专家各不相同。负责最难题型的专家，在该题型出现前几乎“默默无闻”，直到对应任务到来才被“激活”。专家化是按需涌现的，而非预设的。

知识传递也形成了清晰的结构化网络，而非随机扩散。几个固定的“贡献者”反复向几个固定的“接收者”传递洞见。领导权也动态变化：在较易任务中轮换，在极难任务中则集中到最合适的AI身上。用不同随机种子重复实验，这种结构性模式稳定复现，但具体由哪个AI成为专家则每次不同。这正是复杂系统中“涌现”特性的标志。

八、CODREAM产出的实际知识案例

从实验日志中摘录的洞见，展示了该机制产出的知识质量：

数学方向：“计算满足多重模运算约束的整数数量时，需将约束整合进序列的结构定义中，而非作为外部条件处理，以准确建模模数对递归周期的影响。”
编程方向：“当涉及数值范围和潜在溢出时，应使用显式的有界饱和算术，将中间值限制在合法范围内。”
这些洞见都是可操作、可迁移的模式总结，而非针对单题的提示，因此能被有效地用于提升后续任务表现。

九、研究局限与未来方向

研究团队也指出了当前框架的局限与未来工作。测试目前限于两个模型家族，但因其通过提示词实现，理论上具备良好的模型无关性。在计算成本上，EVOCHAMBER需要单个AI约3.6倍的算力，但相比使用5个AI进行多数投票的方案，它仅需后者72%的算力且准确率更高，性价比显著。

未来方向包括：通过元学习优化生命周期管理的阈值参数；运行更长任务流以观察长期稳定性；开发更精细的团队贡献归因机制。这项研究为如何构建能够真正协同进化、而不仅仅是简单聚合的多AI系统，提供了一个极具潜力的参考框架。

Q&A 常见问题解答

Q1：CODREAM机制是如何决定把知识传给哪个AI的？

A：CODREAM在团队失败或出现重大分歧时触发。经过五步反思提炼出结构化洞见后，系统会评估每个AI在该类任务上的近期表现评分，并仅将洞见写入那些表现低于团队中位数的AI的记忆库。这实现了知识从强者向弱者的精准传递，既弥补了短板，又保留了专家的独特性和深度。

Q2：EVOCHAMBER在多数投票失效的困难任务上为何表现更好？

A：多数投票在低成功率下会淹没少数正确答案。EVOCHAMBER通过由当前最强AI担任的“锚定者”智能选择协作结构来规避此问题。在困难任务中，锚定者倾向于选择辩论、生成-评审或分解等深度协作模式，使得偶然出现的正确思路有机会在讨论中被识别、辩护和采纳，从而提高了找到正确答案的概率。

Q3：运行EVOCHAMBER需要对AI模型重新训练吗？

A：完全不需要。EVOCHAMBER的所有机制，包括经验存储、团队组建、协作模式选择、知识提炼和生命周期管理，均通过提示词（即给AI的文本指令）来实现。所有知识的积累和传递都发生在模型的上下文层面或外部记忆库中，无需对底层大语言模型（LLM）的参数进行任何微调或再训练，因此可直接应用于现有各类AI模型。

来源:https://www.163.com/dy/article/KTAT8K6P0511DTVV.html

上一篇：四川硬核科技亮相文博会机器狗与飞行器现场展演

下一篇：重庆通信应急保障实战演练提升应急处置能力