当前位置: 首页
AI
香港大学AI训练新方法 让智能体持续学习不忘旧技能

香港大学AI训练新方法 让智能体持续学习不忘旧技能

热心网友 时间:2026-05-14
转载

由香港大学主导的一项研究,在2026年3月以预印本形式发布,为解决人工智能训练中长期存在的一个经典难题,提出了一个颇具巧思的方案。这篇论文(编号:arXiv:2603.01683v1)为感兴趣的读者提供了深入探究的入口。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

香港大学新突破:让AI学得更聪明却不忘老本事的

教AI学习新东西,常常会遇到一个令人沮丧的局面:新技能是学会了,可旧本事却丢得一干二净。这就像学生刚学完新课程,转头就把旧知识忘光了。在AI领域,这被称为“灾难性遗忘”。香港大学的研究团队这次拿出了一种名为“外科手术式训练”(SPOT)的新思路,其精髓在于“精准干预”——只修正推理链条中的错误环节,而最大程度地保全模型原有的知识体系。

一、为什么AI会“忘记”以前学过的东西

传统上,让AI模型适应新任务,主要有两种主流路径。一种是“监督微调”,相当于给模型一份标准答案,让它反复练习直到记住。这种方法的问题在于,模型可能会过度拟合新数据,从而损害其原有的通用能力。另一种是“强化学习”,通过奖励和惩罚信号来引导模型,这种方式虽然对原有知识破坏较小,但训练过程往往效率低下,需要海量的试错。

研究团队通过对比实验发现了一个关键点:即便是使用完全相同的数据集,不同的训练策略也会导致天差地别的结果。问题的核心似乎不在于“学什么”,而在于“怎么学”。这引出了一个更深层的疑问:究竟是训练数据本身导致了遗忘,还是训练方法才是罪魁祸首?实验结果表明,后者才是关键。即便提供与模型原始知识分布高度接近的数据,如果训练方式不当,遗忘依然会发生。

二、发现AI训练中的“弹性拴绳”机制

为了揭开谜底,团队深入分析了训练过程中的数学动力学。他们发现,有效的训练机制可以类比为一根“弹性拴绳”。

传统的监督训练方式,就像用一根没有弹性的绳子生拉硬拽。无论模型离目标答案有多近,它都会施加一个固定的、巨大的拉力,结果往往是“矫正过正”,破坏了模型参数中与任务无关但至关重要的其他知识。

而理想的机制则不同。当模型距离正确答案很远时,这根“弹性拴绳”会施加较大的拉力,帮助其快速靠近目标;但当模型已经非常接近正确答案时,拉力会急剧减弱,甚至趋近于零,从而避免了不必要的扰动。具体来说,当模型对某个答案已有99%的把握时,传统方法仍会强迫其优化到99.9%,这种过度优化就是破坏的根源。数学分析显示,在模型表现已足够好时,传统方法的更新力度可能仍是1.0,而“弹性拴绳”机制能将其降低数万倍,这种量级上的差异完美解释了为何效果迥异。

三、精密的“外科手术”数据处理流程

仅有好的训练机制还不够,还需要与之匹配的“手术材料”。研究团队设计了一套精妙的数据处理流程,其核心哲学是“最小化干预”。

整个过程分为三步。首先是“错误收集”,让模型尝试解题,专门收集其出错的案例,这相当于术前诊断。接下来是最关键的“精准修复”阶段:引入一个“指导老师”(可以是人类或更强的AI模型),对模型的错误答案进行最小化修正。例如,如果模型在计算“250÷20”时错误地得出“125”,指导老师只会将这一步修正为“12.5”,而保留答案中所有其他正确的推理步骤和表述。最后是“质量控制”,使用“最长公共子序列”等技术确保修正后的答案与原错误答案保持高度相似(如相似度超过40%),这好比确保手术后器官的功能完整性。

通过这套流程,能够批量生成大量“近距离正确答案”。这些答案在风格、逻辑上与模型的原始错误输出极其相似,仅在关键错误点上被修正,从而确保了训练过程不会对模型的知识结构造成剧烈冲击。

四、突破传统排序方法的二元分类训练

传统基于偏好的训练(如RLHF)习惯于让模型在多个选项中进行“哪个更好”的相对排序。但对于数学推理这类有明确对错的任务,这种方式并不直接。研究团队创新性地将其转化为更直接的二元分类问题:分别判断一个答案“是否正确”或“是否错误”。

这种转变带来了更清晰的学习信号:对于正确的推理步骤,模型应增强其信心;对于错误的步骤,则应降低。团队还发现了传统方法的一个隐藏缺陷——“拉升效应”:当仅用正确答案训练时,模型不仅会提升对正确答案的信心,也可能不恰当地提升对某些相似错误答案的信心。

为此,他们设计了两种改进的训练目标。一是“二元交叉熵”目标,同时明确奖励正确和惩罚错误。二是在此基础上增加了动态调节机制的“二元分类优化”目标,它能根据模型当前的学习状态自动调整训练强度,就像一个智能教练,在学员入门时加大训练量,在接近精通时则减少干预,防止过度训练。

五、令人瞩目的实验成果

团队在Qwen3-8B和Llama-3.1-8B-Instruct两个模型上验证了SPOT方法的有效性。结果令人印象深刻。

在数学推理能力上,Qwen3-8B模型在多个高难度竞赛数据集上取得显著提升:在AIME24上准确率从22.0%升至28.0%,在AIME25上从19.3%升至27.3%,在AMC23上从66.5%升至71.5%。更重要的是,这种提升并未牺牲通用能力。在衡量指令跟随能力的IFEval测试中,其性能反而从83.0%微升至84.8%。

在纯逻辑推理任务Connect4游戏中,模型表现更是从10.9%大幅跃升至36.0%,证明了该方法在不同任务上的泛化能力。实验还逐项验证了每个改进组件的必要性,并凸显了训练效率的优势:整个训练仅需8块H800 GPU运行28分钟,使用约4000个高质量样本,远优于传统强化学习方法。

六、方法论的深层创新与技术突破

这项工作的价值,远不止于提升了几项测试指标。它提供了一种全新的AI训练范式。传统方法如同粗放式的“批量加工”,而SPOT则像是“定制化精密制造”。

其创新体现在多个层面:一是实现了“精确制导”的训练,将影响精准控制在需要改动的参数子集上,避免了“牵一发而动全身”。二是在数学上,其引入的“奖励偏移”机制起到了动态平衡器的作用,能自适应地调节优化力度。三是该方法部分突破了“教师能力天花板”的限制,由于指导老师的任务从“从头解题”简化为“修正错误”,对其能力要求降低,使得模型自我改进成为可能。四是“梯度聚焦”效应,因训练数据中正负样本高度相似,梯度自然聚焦于关键差异点,学习效率极大提升。

七、实用价值与未来展望

这项研究的现实意义重大。对于AI开发者而言,它提供了一条高效、安全的模型迭代路径,可以针对性地增强AI的特定能力,而无需担心破坏其整体性能。在教育、企业应用等场景中,这种能够持续、稳定学习新知识而不遗忘旧技能的AI,其实用价值不言而喻。

当然,当前方法仍有改进空间,例如对“指导老师”的依赖限制了其完全自动化。未来的方向可能包括探索模型的自我纠错能力,以及将“外科手术式”训练的理念拓展到代码生成、战略规划等其他复杂推理任务中。

从更宏观的视角看,这项研究标志着AI训练思维的一次重要转变:从依赖“数据暴力”和“算力堆砌”,转向追求“训练智能”与“过程精巧”。在模型规模不断扩大的今天,如何更高效、更精准地进行调整,SPOT方法无疑提供了一个极具启发性的范本。

Q&A

Q1:什么是外科手术式训练(SPOT)?
A:SPOT是香港大学提出的一种AI训练新方法,其核心思想是像外科手术一样,仅对AI模型推理过程中间出错的特定部分进行精准修正,同时最大限度地保护其原有的知识结构,从而有效避免学习新任务时的“灾难性遗忘”问题。

Q2:为什么传统AI训练会出现“学新忘旧”的问题?
A:关键在于传统训练方法缺乏“分寸感”。即使模型对某个答案已有很高置信度,传统方法仍会进行过度优化,这种强制性的、全局性的参数调整,往往会破坏模型在其他任务上已习得的能力。

Q3:SPOT方法的训练效率如何?
A:效率非常突出。以Qwen3-8B模型为例,仅使用4000个精加工样本,在8块H800 GPU上训练28分钟,就能将其数学推理准确率提升超过6个百分点,速度比传统强化学习方法快数十倍。

来源:https://www.techwalker.com/2026/0310/3180676.shtml

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
OpenAI语音API新功能详解,开发者如何构建智能对话应用

OpenAI语音API新功能详解,开发者如何构建智能对话应用

OpenAI近日为其API平台推出多项语音智能功能。全新语音模型GPT-Realtime-2具备GPT-5级别推理能力,可处理复杂对话。实时翻译功能支持超70种输入语言和13种输出语言。实时转录功能可将语音即时转为文字。这些工具旨在提升客服、教育、媒体等领域的交互体验,并内置安全机制防止滥用。

时间:2026-05-14 08:32
Gmail AI收件箱与帮我写作功能升级详解

Gmail AI收件箱与帮我写作功能升级详解

Gmail移动端新增AI收件箱功能,入口位于底部导航栏。该功能以任务为导向,分为“建议待办事项”和“待跟进主题”,帮助用户快速聚焦待处理邮件。同时,“帮我写作”功能也获个性化升级,可智能辅助邮件撰写。两项功能目前仅向订阅特定谷歌AI服务的用户开放。

时间:2026-05-14 08:31
数字孪生产教融合公司盘点与头部方案推荐

数字孪生产教融合公司盘点与头部方案推荐

数字孪生技术加速渗透教育领域,市场人才需求旺盛。行业主要有泛场景服务商、教育专业厂商及自研引擎平台三类。智汇云舟凭借自主“孪舟”3D引擎及视频孪生技术领先,具备高精度建模与多源数据融合能力,构建全栈国产化适配体系。其视频孪生教育实训平台已落地多所高校,通过低代码工。

时间:2026-05-14 08:31
国产3D引擎自主可控发展:从静态可视化迈向实时数字孪生

国产3D引擎自主可控发展:从静态可视化迈向实时数字孪生

数字孪生技术广泛应用,其底层3D引擎自主可控至关重要。过去国内项目多依赖国外引擎,存在适配问题。以“孪舟引擎”为例,国产引擎正通过视频孪生等技术路径寻求突破,实现实时视频流与三维场景的深度融合,并在安防、应急等领域应用。同时,引擎积极适配国产CPU、操作系统等全栈信创生态,已在。

时间:2026-05-14 08:31
马化腾谈腾讯AI进展:已上船待提速 未来将加速追赶

马化腾谈腾讯AI进展:已上船待提速 未来将加速追赶

腾讯股东大会上,马化腾回应AI领域进展时坦言,早期基础能力并不突出,如今已站稳脚跟但需加速。他强调不盲目跟风,应结合自身平台与场景优势稳扎稳打。腾讯正通过人才建设等措施系统性补足短板,逐步驶入发展轨道,注重长期竞争力而非单纯追求速度。

时间:2026-05-14 08:31
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程