香港科技大学AI实现自主调节 破解探索与利用平衡难题
这项由香港科技大学、北京人工智能研究院与腾讯公司联合开展的研究,发表于2025年的国际学习表征会议(ICLR 2025)。研究团队提出了一种名为B-STAR的创新方法,旨在攻克人工智能在自我训练过程中长期存在的核心瓶颈。完整的研究细节可通过论文编号arXiv:2412.17256v2查阅。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

要理解这项工作的突破性,可以将AI的自学过程类比为学生的自主学习。当学生自学数学时,总会面临一个经典的两难抉择:是应该广泛尝试不同类型的题目以开拓思路(探索),还是应该反复练习已掌握的题型来巩固基础(利用)?过度探索可能导致时间浪费在超纲难题上;过度利用则容易陷入思维定式,难以实现能力突破。
当前,大型人工智能模型在自我进化时,正遭遇着几乎相同的困境。为处理复杂的推理任务,模型常需依赖自身生成的数据进行迭代优化,因为获取海量高质量人工标注数据的成本极高。然而,现有自我改进方法往往在仅3到5轮训练后性能便陷入平台期,无法继续提升。这好比学生自学几天后,便感觉再也学不到新知识了。
那么,瓶颈究竟何在?研究团队通过深入分析发现,核心症结在于系统难以有效平衡“探索”与“利用”这两个关键维度。具体而言:
- 探索能力,指模型产生多样化正确答案的潜力,如同学生尝试用多种解法攻克同一道题。
- 利用能力,则关乎外部奖励机制能否精准识别并筛选出高质量答案,好比老师需要具备精准评判答案优劣的慧眼。
为精确量化这两个要素,团队设计了一套创新的评估体系。针对探索能力,他们采用了“Pass@K”指标,用于衡量模型生成的K个候选答案中至少包含一个正确答案的概率。为更稳定地评估探索的广度,他们还提出了“Pass@K-S”指标,要求K个答案中至少有S个独特的正确解法。这就像考察学生的创造性——不仅要求能做对,还要评估能想出多少种不同的正确方法。
对于利用能力,团队引入了“Best-of-K”准确率和“Reward@K-S”指标。前者检验奖励函数排名第一的答案是否正确;后者则评估排名前S的答案是否都正确。这相当于测试老师的评分水平——能否将真正优秀的答案准确挑选出来并排在前列。
通过对数学推理任务的案例研究,一个明显的趋势浮现出来:随着训练轮次增加,模型的探索能力会急剧衰退。具体表现为生成答案的多样性显著降低,模型开始不断输出雷同的回应。与此同时,利用效果也会随着模型能力波动而变得不稳定。这种现象,类似于“学习疲劳”——学生在长时间自学后,思维逐渐僵化,只会套用熟悉的模式,失去了尝试新方法的意愿和能力。
更为关键的是,探索与利用之间存在着复杂的动态关系。在训练的不同阶段,最优的平衡点其实持续变化。早期模型能力较弱,需要更保守的探索策略和更严格的筛选标准;到了后期,随着模型水平提升,则需要更大胆的探索和相对宽松的筛选。这如同学生的学习策略必须与时俱进:初学者宜稳扎稳打,高手则需勇于挑战难题。
基于这些深刻洞察,研究团队开发了B-STAR(平衡式自学推理器)系统。其核心创新在于,能够自动监控并动态调节探索与利用之间的平衡。B-STAR引入了一个“平衡分数”的概念,该分数巧妙地综合了两方面因素:一是被选中的高质量答案的绝对数量,二是高质量答案在所有被选答案中所占的比例。
这个平衡分数的设计极为精妙。假设我们希望每个问题至少能筛选出n*个正确答案,那么对于第i个问题,如果实际选出了n‘i个独特正确答案,总共选出了ni个答案,其平衡分数即为:min(n’i/n*, 1) × n‘i/ni。公式前半部分确保有足够数量的正确答案用于训练,后半部分则保证了选中答案的整体质量水平。这相当于制定了一套兼顾“数量”与“质量”的智能选拔标准。
B-STAR系统通过动态调整两个关键参数来优化这个平衡分数:采样温度和奖励阈值。采样温度控制着模型生成答案的随机性——温度越高,答案越多样,但也可能更不可靠;奖励阈值则决定了筛选答案的严格程度——阈值越高,筛选越严苛。
在实际运行中,B-STAR的调节策略展现出清晰的阶段性智能。训练初期,系统倾向于采用较低的采样温度和较高的奖励阈值,这好比让初学者先牢固掌握基础知识,避免好高骛远。随着训练的深入,系统会逐步提高采样温度,并适当降低奖励阈值,从而鼓励模型进行更多样化的探索,同时在筛选上给予更多包容。
效果验证:持续改进的显著优势
研究团队在多个高难度任务上验证了B-STAR的效果,包括GSM8K和MATH数学推理、APPS编程挑战以及ARC-Challenge常识推理任务。结果相当突出:
- 在GSM8K任务上,B-STAR取得了53.8%的准确率,显著超越了在线拒绝采样微调方法的46.8%。
- 在更困难的MATH任务上,B-STAR达到27.8%的准确率,相比基线方法的23.2%提升了4.6个百分点。
特别值得注意的是,B-STAR不仅在最终性能上领先,其整个训练过程都呈现出持续的改进曲线。传统方法往往几轮后增长就陷入停滞,而B-STAR能保持稳定的上升势头。这种持续进化能力,正源于其动态平衡机制——系统能根据实时状态自动调整策略,从而避免陷入局部最优的陷阱。
为证明动态调整的必要性,团队进行了对比实验。结果发现,即使使用最优的固定参数配置,其效果也远不及B-STAR的动态调节策略。这有力地说明了自适应策略的独特价值。就像一个优秀的教练,必须根据运动员的不同成长阶段调整训练方案,而非一套方法用到底。
此外,团队在更强大的Llama-3.1-8B模型上进行了测试,结果表明B-STAR的优势具有良好的通用性,并不局限于特定模型架构,这为其广泛应用铺平了道路。
从工程实现角度看,B-STAR还有一个突出优点:计算成本可控。系统只需在小规模数据子集上计算平衡分数以确定最优配置,然后将这些配置应用于全量训练数据。这种设计使得额外的计算开销很小,不会显著增加训练负担。
更广阔的启示与未来方向
这项研究的意义,显然超越了单纯的技术改进。它为我们理解人工智能自主学习的内在机制,提供了一个崭新的视角。通过明确定义并量化“探索”与“利用”,研究为这个长期存在但缺乏系统理论框架的问题,建立了可分析、可优化的基础。这就像为模糊的概念找到了精确的测量标尺。
从更宏大的视角看,B-STAR代表了人工智能向更智能、更自主方向演进的重要一步。传统机器学习方法严重依赖预设的超参数,而B-STAR展示了系统自适应调整策略的可能性。这种能力,对于未来开发能在复杂、动态环境中持续学习和进化的AI系统,具有关键价值。
当然,任何研究都有其边界。目前的方法主要通过调整采样温度和奖励阈值来控制平衡,未来可能需要探索更精细、更多元的调控机制。此外,当前验证主要集中在数学、编程和常识推理任务,在其他类型任务上的泛化能力仍需进一步检验。
展望未来,这项研究为AI自主学习开辟了多条有潜力的路径。例如,可以探索更高级的解码方法直接调控生成数据的探索性,或者通过更新奖励模型本身来提升利用效果。这些方向的突破,有望将自主学习的性能和应用范围推向新的高度。
归根结底,B-STAR的成功在于它巧妙地解决了一个看似简单实则复杂的问题:如何让机器在自学过程中,自主找到探索与利用的最佳平衡点。这个问题不仅困扰着AI,在人类学习、企业创新、科学研究等诸多领域同样存在。B-STAR提供的思路与方法,或许能带来更广泛的启发。
对于普通观察者而言,这项研究预示着一个趋势:未来的人工智能系统将变得更加智能和自主。我们或许很快就能见到能够持续自我完善、无需频繁人工干预就能适应新挑战的AI助手。这必将为教育、工作乃至日常生活带来变革。当然,这也促使我们思考:如何确保这些日益自主的系统,始终沿着增进人类福祉的轨道前行。
Q&A
Q1:B-STAR是什么,它解决了什么问题?
A:B-STAR是香港科技大学团队开发的平衡式自学推理器,专门解决人工智能在自我训练过程中探索与利用失衡的问题。传统AI自学方法往往在3-5轮训练后就停滞不前,而B-STAR通过动态调节让AI能够持续改进性能。
Q2:探索和利用在人工智能训练中具体指什么?
A:探索是指AI模型生成多样化正确答案的能力,就像学生尝试用不同方法解题;利用是指外部奖励机制准确识别高质量答案的能力,就像老师准确评判答案好坏。两者需要动态平衡才能实现最佳学习效果。
Q3:B-STAR在实际应用中表现如何?
A:B-STAR在多个任务上都显著超越了传统方法。在GSM8K数学任务上达到53.8%准确率,比基线方法提升7个百分点;在MATH任务上达到27.8%准确率,提升4.6个百分点。更重要的是,它能保持持续改进而不会陷入停滞。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
港科大新技术实现一句话生成多镜头视频电影级制作
这项由香港科技大学、北京大学、香港大学等顶尖学术机构联合主导的研究成果,已正式入选2025年神经信息处理系统大会(NeurIPS 2025)的视频生成与评估工作坊。该研究的预印本论文编号为arXiv:2412 02259v3,为希望深入了解技术原理的研究者与开发者提供了完整的学术参考。 当前主流的A
马斯克申请SpaceXAI商标布局太空数据中心与社交网络
最近科技圈有个大动作,想必不少人都注意到了。马斯克旗下的SpaceX公司,向美国专利商标局提交了两份“SpaceXAI”的文字商标申请。这可不是普通的商标注册,它更像是一份公开的战略声明,标志着马斯克将旗下的人工智能业务与航天业务,进行了一次深度的、结构性的整合。 仔细看这两份申请里的商品和服务描述
香港科技大学AI动画上色技术:一张设计稿自动完成整部动画
制作一部动画片,其繁复程度不亚于建造一座精美的城堡。每一帧画面都需要画师们先勾勒线稿,再一笔一笔填充颜色,确保角色在整部作品中始终保持一致。这个过程如同手工为成千上万张画片逐一上色,不仅耗时耗力,还极易出现色彩偏差。 如今,一项来自香港科技大学与蚂蚁集团的合作研究,带来了一个颇具革命性的解决方案——
LG EXAONE 3.5三大模型发布 如何拓展人工智能应用新边界
人工智能技术正以前所未有的速度演进,但一个核心问题始终困扰着开发者和企业:如何让强大的AI能力,既能胜任复杂的专业任务,又能灵活适配从云端服务器到边缘设备的多样化计算环境?LG AI Research最新推出的EXAONE 3 5系列大语言模型,为这一难题提供了系统性的解决方案。它不再局限于单一的超
卡内基梅隆大学测试AI数字员工TheAgentCompany办公室工作能力
清晨步入办公室,开启电脑准备投入工作时,你是否曾想象过,未来与你并肩协作的,可能并非人类同事,而是一位AI数字员工?这一仿佛科幻作品的场景,正由卡内基梅隆大学的研究团队逐步变为现实。 这项由卡内基梅隆大学主导,联合杜克大学等多家机构完成的研究成果,已于2024年12月发布于arXiv预印本平台(论文
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

