俄勒冈州立大学联合研发AI团队进化技术

一项由俄勒冈州立大学、威斯康星大学麦迪逊分校、强生公司和宾夕法尼亚州立大学联合进行的人工智能研究,近期以预印本形式发布于arXiv平台,论文编号为arXiv:2605.11136。这项研究提出了一个革命性的多智能体协作框架,旨在解决当前AI团队协作效率低下的根本问题。
一、AI团队协作的根本性挑战:为何“多数投票”会失败?
想象一下,你管理着一支由五位专家组成的团队。面对复杂难题,你是让他们各自独立工作然后简单汇总结果,还是组织他们深度协作、优势互补、共享经验?答案显然是后者,这才是高效团队的核心。
然而,在人工智能领域,当前的主流多模型协作方法却更接近前者:将多个AI模型并列放置,各自独立生成答案,最后仅通过“多数投票”来决定最终输出——即哪个答案出现频率最高就选择哪个。
这一矛盾引起了研究团队的深度关注。他们观察到一个关键悖论:当任务难度极高,单个AI模型的成功率仅有20%时,“多数投票”策略会完全失效。因为此时正确的答案往往是少数派,反而会被大量的错误答案所淹没。数学计算证实:五个成功率为20%的AI,采用多数投票后得到正确答案的概率会暴跌至约5.8%,甚至低于单个AI的表现。
正是这一发现,促使研究者提出了一个更本质的问题:我们能否让多个AI像一支有机的、持续进化的团队那样工作,而不是简单重复单个AI的学习过程?他们的答案是肯定的,并为此设计了一个名为EVOCHAMBER的创新框架。该框架的精妙之处在于,它能使AI团队在无需重新训练模型的前提下,仅通过任务经验的积累就实现自发的、持续的进化。
二、进化的三个层次:从个体到种群的系统性优化
要理解EVOCHAMBER框架的核心,可以将其类比为一间顶级咨询公司的运作。公司拥有众多顾问,每接到新项目,管理层都需要决策:派遣哪几位顾问?他们如何分工协作?项目中学到的经验如何在整个组织内分享?公司的人员结构是否需要随业务变化而调整?
这四个问题,恰好对应了EVOCHAMER所定义的三个核心进化层次。
首先是“个体层次进化”。每个AI都拥有一个私有的经验记忆库。每次完成任务后,AI会复盘自己的推理过程、团队的最终决策以及任务结果,从中提炼出两类知识:一类是针对特定问题领域的专项策略(例如解决某种几何题的技巧),另一类则是跨领域通用的元认知策略(例如“遇到复杂问题先分解”)。这些知识被分类存储。当遇到新任务时,AI会从自己的记忆库中检索最相关的经验作为参考。同时,每个AI都有一个动态更新的“能力评分”,记录其在各类任务上的历史表现,近期表现权重更高。
其次是“团队层次进化”,这决定了执行任务的成员构成及其协作方式。关键在于避免总是派遣“最强的几个AI”,否则强者会垄断经验,导致团队多样性丧失和成员发展不均。为此,研究团队设计了三个互补的角色:
- 锚定者:在当前任务类型中表现最佳的AI,负责把握主体方向和最终决策。
- 补充者:从剩余AI中选出,选择标准是既在该任务类型上有一定能力,又与锚定者有良好的合作历史,且其解题风格能与锚定者形成互补。
- 探索者:专门从很少接触此类任务的AI中选出,目的是为团队引入新的视角和经验,拓宽知识边界。
团队组建完成后,锚定者还需从四种协作模式中智能选择一种:投票、辩论、生成-评审或问题分解。具体模式的选择基于历史经验,并且这种选择能力本身也会随着实践不断学习和优化。
最后是“种群层次进化”,它管理着整个AI池的知识流动与成员结构。这是EVOCHAMBER与以往所有方法最本质的区别,也是其实现“1+1>2”协同效应的关键。
三、CODREAM机制:实现精准、非对称的知识传递
种群层次进化的核心是一个名为CODREAM(协作梦境)的机制。当团队任务失败,或成员间出现重大意见分歧时,该机制便会触发一次深度的集体反思会议,其核心目标是实现知识从强者向弱者的精准传递。
“梦境”一词形象地描述了这一事后学习过程,如同人类在睡眠中整理和消化白天的经验。一次完整的CODREAM反思包含五个步骤:
- 反思:每位成员私下审视自己本次任务的得失。
- 对比:将失败者与成功者的行为进行对比,提炼出关键差异。
- 想象:将这些差异转化为可应用于未来类似情境的策略性假设。
- 辩论:团队成员互相评审这些策略假设,淘汰不合理的部分。
- 结晶:将通过辩论考验的洞见整理成结构化知识条目,并标注其适用范围和级别。
最关键的一步在于知识的分发:这些结晶出的知识,不会广播给所有AI,而是精准地写入那些在该类任务上表现低于团队中位数的AI个体的记忆库中。这种“非对称知识传递”至关重要——将代数技巧灌输给已精通代数的AI是冗余干扰,但传递给在此方面存在短板的AI,则能有效弥补能力差距。
对照实验数据强有力地证明了CODREAM的价值:当关闭此机制,仅保留团队组建功能时,整体表现与单个AI无异。这意味着,没有高效的知识流动,再精心的团队组合也无法超越个体能力的简单叠加。
四、生命周期管理:AI团队的动态结构与新陈代谢
种群层次的另一部分是动态的生命周期管理。系统会定期评估整个AI池的状态,并执行以下核心操作以优化整体结构:
- 分裂:对持续表现出色的AI进行克隆,赋予新个体略微不同的专注方向,探索相邻能力。
- 合并:当两个AI能力高度重叠时,将其合并为一个,整合两者记忆,避免资源冗余。
- 修剪:淘汰连续多次表现显著低于平均水平的AI。
- 创生:当遇到全新类型的任务,且池中无相关经验AI时,孵化一个全新的AI从零开始学习。
此外,还有“专化”操作,用于调整高表现AI的定位,使其在未来团队组建中更易被识别为特定领域专家。
这套机制确保了AI团队的结构能够随着任务流的变化而动态演化,如同一个有机组织能够根据市场变化调整其部门架构和人才配置。
五、实验验证:在多元高难度任务流上的卓越表现
为全面评估EVOCHAMBER,研究团队设计了三条涵盖不同领域和难度的任务流进行测试。
1. 困难数学流:包含382道高难度数学题。在最富挑战性的AIME竞赛题上,单个AI成功率仅10%-17%。EVOCHAMBER整体准确率达到63.9%,比最佳基线方法高出32%,是单个AI表现的两倍以上。在AIME 2024题目上,其准确率达40%,而“多数投票”方法仅为3.3%,完美验证了其在低成功率场景下的优势。
2. 困难编程流:包含422道编程题。在竞赛级的CodeContests题目子集上,EVOCHAMBER准确率达到35.2%,是单个AI的5倍多。值得注意的是,其他具备记忆机制的对比方法在此表现反而差于单个AI,说明低效的知识管理会引入噪声干扰。
3. AFlow综合流:包含六个不同领域的600道题目,用于测试跨领域适应能力。EVOCHAMBER以87.1%的总准确率领先所有基线,尤其在需要知识迁移的高难数学和编程领域优势显著。
即使用更强的GPT-4.1-mini模型测试,EVOCHAMBER依然保持领先,在AIME题目上比单个模型高出10.7个百分点。
六、消融实验:揭示核心驱动力的贡献
通过逐一移除框架组件,研究团队量化了每个模块的贡献。
将智能团队组建替换为随机组队,性能下降2.4%。将智能协作模式选择替换为强制投票,性能下降3.0%。这表明团队层面的设计有效,但贡献有限。
然而,当关闭最核心的CODREAM知识传递机制时,性能骤降10.8个百分点。在依赖多步推理的任务上,下跌尤为剧烈(如复杂推理任务从86.0%跌至48.0%)。这强有力地证明,跨智能体的、非对称的知识传递是整个框架性能提升的核心驱动力。
另一关键对照实验显示:仅拥有多个AI但关闭CODREAM,其表现与单个AI完全相同。真正的增益完全来源于高效的知识流动机制。
七、涌现现象:专家与知识网络的自主形成
除了性能数据,研究团队还观察到了令人印象深刻的“涌现”现象。
20个完全相同的AI从零开始,未被预设任何专业方向。随着任务推进,稳定的分工格局自发形成:每个任务类别都自然涌现出一个主力专家,且不同类别的专家各不相同。负责最难题型的专家,在该题型出现前几乎“默默无闻”,直到对应任务到来才被“激活”。专家化是按需涌现的,而非预设的。
知识传递也形成了清晰的结构化网络,而非随机扩散。几个固定的“贡献者”反复向几个固定的“接收者”传递洞见。领导权也动态变化:在较易任务中轮换,在极难任务中则集中到最合适的AI身上。用不同随机种子重复实验,这种结构性模式稳定复现,但具体由哪个AI成为专家则每次不同。这正是复杂系统中“涌现”特性的标志。
八、CODREAM产出的实际知识案例
从实验日志中摘录的洞见,展示了该机制产出的知识质量:
数学方向:“计算满足多重模运算约束的整数数量时,需将约束整合进序列的结构定义中,而非作为外部条件处理,以准确建模模数对递归周期的影响。”
编程方向:“当涉及数值范围和潜在溢出时,应使用显式的有界饱和算术,将中间值限制在合法范围内。”
这些洞见都是可操作、可迁移的模式总结,而非针对单题的提示,因此能被有效地用于提升后续任务表现。
九、研究局限与未来方向
研究团队也指出了当前框架的局限与未来工作。测试目前限于两个模型家族,但因其通过提示词实现,理论上具备良好的模型无关性。在计算成本上,EVOCHAMBER需要单个AI约3.6倍的算力,但相比使用5个AI进行多数投票的方案,它仅需后者72%的算力且准确率更高,性价比显著。
未来方向包括:通过元学习优化生命周期管理的阈值参数;运行更长任务流以观察长期稳定性;开发更精细的团队贡献归因机制。这项研究为如何构建能够真正协同进化、而不仅仅是简单聚合的多AI系统,提供了一个极具潜力的参考框架。
Q&A 常见问题解答
Q1:CODREAM机制是如何决定把知识传给哪个AI的?
A:CODREAM在团队失败或出现重大分歧时触发。经过五步反思提炼出结构化洞见后,系统会评估每个AI在该类任务上的近期表现评分,并仅将洞见写入那些表现低于团队中位数的AI的记忆库。这实现了知识从强者向弱者的精准传递,既弥补了短板,又保留了专家的独特性和深度。
Q2:EVOCHAMBER在多数投票失效的困难任务上为何表现更好?
A:多数投票在低成功率下会淹没少数正确答案。EVOCHAMBER通过由当前最强AI担任的“锚定者”智能选择协作结构来规避此问题。在困难任务中,锚定者倾向于选择辩论、生成-评审或分解等深度协作模式,使得偶然出现的正确思路有机会在讨论中被识别、辩护和采纳,从而提高了找到正确答案的概率。
Q3:运行EVOCHAMBER需要对AI模型重新训练吗?
A:完全不需要。EVOCHAMBER的所有机制,包括经验存储、团队组建、协作模式选择、知识提炼和生命周期管理,均通过提示词(即给AI的文本指令)来实现。所有知识的积累和传递都发生在模型的上下文层面或外部记忆库中,无需对底层大语言模型(LLM)的参数进行任何微调或再训练,因此可直接应用于现有各类AI模型。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
B站一季度财报发布 营收达74.7亿元
B站2026年第一季度财报正式出炉,业绩表现稳健增长。5月19日披露的数据显示,本季度公司总营收实现74 7亿元,较去年同期提升7%。尤为值得关注的是其盈利能力的显著增强——调整后净利润录得5 9亿元,同比大幅攀升62%。这份亮眼的成绩单,清晰地反映了B站业务结构正在经历的深刻转型与优化。 广告业务
DeepSeek 是什么 它有哪些功能与使用限制
最近,AI领域内出现了一个值得关注的技术现象。许多用户在使用DeepSeek大语言模型进行对话时发现,当输入一个特定的“think”字符序列后,模型生成的回复偶尔会出现逻辑不连贯或内容偏离预期的状况。这一发现迅速在技术社区和社交平台上引发了广泛讨论。 针对用户的集中反馈,DeepSeek官方反应迅速
南加州大学AI推理突破实现举一反三能力提升
南加州大学的研究团队在2026年5月发布了一项引人注目的成果,论文编号为arXiv:2605 12466v1,为语言模型的架构设计开辟了一条新路。 过去几年,以ChatGPT、Claude为代表的大语言模型彻底重塑了人机交互的图景。但细究起来,这些模型的工作方式有点“一根筋”:无论面对的问题是简单寒
微软东南大学合作开发AI拖拽绘图新功能
近期,一项由东南大学、微软研究院、武汉大学、中山大学及阿布扎比穆罕默德·本·扎耶德人工智能大学联合发布的研究成果,揭示了当前AI在操控电脑屏幕任务中的一个关键瓶颈。这篇预印本论文(arXiv:2605 12501v1)的核心观点指出,现有的“计算机使用智能体”在处理复杂交互操作时存在显著短板。 超越
京东春晓计划再投10亿扶持商家发展
5月19日,京东发布重磅公告,为即将到来的618年中购物节再添强劲动力。平台宣布,其核心商家扶持项目“春晓计划”将在618大促期间限时升级,额外投入价值10亿元的资源,并新增五大核心权益,旨在助力超百万中小商家把握大促机遇,实现销量与利润的双重稳健增长。 对于电商从业者而言,“春晓计划”早已是耳熟能
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

