清华大学与香港大学合作研发AI核心信息识别新技术

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

清华大学与香港大学合作研发AI核心信息识别新技术

热心网友时间：2026-05-12

转载

学习一门新技能时，你肯定有过这样的体会：有些知识点是核心关键，有些则更像是装饰性的细节。有趣的是，人工智能在学习时，似乎也面临着同样的“轻重缓急”问题。最近，清华大学和香港大学的研究团队就针对此开发了一项新技术——ProFit。它能让AI模型在训练过程中，自动识别并聚焦于最重要的信息，就像一个聪明的学生懂得如何抓住重点。这项研究已于2026年1月以预印本形式发布在arXiv上，论文编号为arXiv:2601.09195v1。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

清华大学与香港大学合作：AI训练有了

不妨想象一下教孩子学数学的场景。传统方式可能要求孩子逐字背诵教科书，连“嗯”、“那么”这类填充词也不放过。但聪明的老师都明白，核心是公式和解题思路，那些可有可无的表达习惯并非重点。研究团队发现，当前主流的AI训练方法就类似于前者，它强迫模型学习标准答案中的每一个细节，包括那些并不重要的表达习惯。

这种方式带来了一个明显的副作用：模型容易陷入“表面学习”的陷阱。好比一个学生只顾模仿老师讲课的口头禅，却忽略了知识本身。当模型过度关注这些表层表达时，其真正的推理能力反而会受损，导致在面对新问题时表现不佳。

一、发现AI学习的“轻重缓急”问题

研究团队首先从一个有趣的现象入手：为什么有些AI回答看起来流畅，逻辑却经不起推敲？根源指向了传统的“监督微调”训练方法。这种方法要求模型在每个生成位置都必须严格匹配标准答案，不允许丝毫偏差。

这就好比要求学生复述课文时，不仅要内容正确，连老师的语气词、停顿甚至咳嗽声都得一模一样。表面看，这样训练出的结果很“标准”，但模型很可能并未真正理解核心思想。

为了验证，团队设计了一个巧妙的实验。他们准备了同一数学问题的多个正确答案，并请高级AI模型Gemini-3-Pro来标注每个答案中，哪些词语属于“核心逻辑”，哪些仅是“表达习惯”。分析发现了一个关键规律：对于承载核心逻辑的词语，模型在预测时往往表现出很高的“自信度”（技术上称为高概率）；而对于那些可替换的表达，模型的自信度通常较低。

这个发现意义重大。它意味着，AI模型本身其实“知道”什么重要、什么不重要，只是传统训练方法没有利用这一点。就像一个学生心里能分清重点与闲话，但考试却要求对所有内容一视同仁。

二、ProFit：让AI学会“抓重点”

基于上述洞察，团队开发了ProFit技术。其名称来源于“概率引导的词语选择”，但你可以把它理解为一种“抓重点训练法”。

ProFit的工作原理，就像一个智能的学习督导。在模型学习标准答案时，它会实时监控模型对每个词语的预测自信度。对于自信度高的关键词语（比如数学公式中的核心变量），ProFit会重点加强训练；而对于自信度低的非关键词语（如“让我想想”这类填充词），则会选择忽略，避免这些干扰项影响学习进程。

具体而言，ProFit设定了一个“自信度门槛”。只有预测自信度超过这个门槛的词语，才会被纳入训练目标；低于门槛的则被“屏蔽”在外。这就像给学生划重点，只聚焦于核心内容。

这种方法的巧妙之处在于，它无需人工标注重要性，而是利用模型自身的“直觉”来指导学习。模型自信的地方，往往确实是逻辑要点；模型犹豫的地方，通常也是可自由发挥的表达部分。

团队还从数学原理上解释了其有效性。那些不重要的词语在训练中会引入显著的“噪声”，如同在安静教室中间出现的杂音，干扰思考。ProFit通过屏蔽这些词语，让模型能专注于真正重要的信息，从而提升学习效率与质量。

三、令人惊喜的实验结果

为了检验效果，研究团队进行了大规模对比实验。他们选取了多个不同规模的模型，包括清华的Qwen3系列、Meta的Llama系列以及艾伦AI研究所的OLMo2系列，测试范围覆盖科学推理、数学计算、指令理解等多个维度。

结果相当振奋人心。在最具挑战性的科学推理任务GPQA-Diamond上，采用ProFit训练的模型，其准确率比传统方法高出3到11个百分点。在AI领域，几个百分点的提升往往意味着重大的技术突破。

数学推理方面，ProFit同样表现优异。在包含500道竞赛级题目的MATH-500测试集上，经ProFit训练的模型展现出更强的解题能力。甚至在2024年美国数学邀请赛（AIME‘24）的真题上，也取得了显著优势。

另一个重要发现是，传统训练方法有时会导致模型性能“退化”——训练后的表现反而不如原始模型。这就像学生越学越糊涂。而ProFit则稳定地提升了模型性能，避免了这一问题。

更值得一提的是训练效率。ProFit不仅效果更好，训练速度也更快。在相同时间内，它能帮助模型达到更高的性能水平。这对于消耗大量计算资源的AI训练来说，无疑是一个实用优势。

四、深入理解ProFit的工作机制

为了更深层地理解ProFit为何有效，团队进行了一系列分析实验，揭示了一些有趣的现象。

首先是“自信度门槛”的设定。团队测试了从10%到90%的不同阈值。结果表明，门槛设置在30%到50%之间时效果最佳。门槛过低会让过多噪声参与训练；门槛过高则会丢失有用信息。这就像调节收音机，需要找到最清晰的频段。

反向实验的结果更有说服力。当团队故意让模型只学习那些“不自信”的词语时，模型性能急剧下降。这恰恰证明了ProFit聚焦重点的策略是正确的。

此外，团队还考察了模型参数规模的影响。他们结合参数高效训练技术LoRA进行测试，发现ProFit在不同规模的模型上都能稳定生效，说明其具有较好的普适性。

从训练动态看，ProFit能使模型更快、更平稳地收敛到最佳状态。传统方法训练的模型往往需要更多轮次，且性能易出现波动；而ProFit训练的模型则表现得更稳定，如同经验丰富的司机驾驶车辆一样平稳。

五、ProFit在强化学习中的进阶应用

团队的探索并未止步于基础训练。他们还将ProFit应用到了更高级的强化学习场景中。强化学习类似于让AI通过试错来掌握技能。

在这类进阶实验中，研究团队先用ProFit对模型进行初始化，再进行强化学习优化。结果显示，经过ProFit初始化的模型，不仅起点更高，学习过程也更稳定。在面对数学推理、奥林匹克竞赛题目等高难度任务时，这类模型都表现出更强的学习能力和更快的收敛速度。

这好比体育训练：如果运动员从一开始就掌握了正确的基本功，那么后续的高阶训练将事半功倍。ProFit为模型提供了这样的“优质基本功”，为后续的强化学习奠定了坚实基础。

六、技术细节与实现考量

尽管核心思想简洁，但ProFit的实际实现需要考虑诸多技术细节。论文中详细讨论了如何在不同训练框架中集成ProFit，以及如何选择最优参数。

研究发现，ProFit的效果与训练数据质量相关。高质量的数据能让ProFit更精准地识别重要信息；反之，低质量数据可能影响判断。这提醒我们，再好的方法也离不开优质的数据基础。

在计算效率上，ProFit带来的额外开销很小。判断每个词语的重要性仅需微量计算，不会显著增加总体训练时间，这对实际部署非常友好。

当然，团队也坦诚指出了ProFit的局限性。该方法主要适用于逻辑推理类任务。对于创意写作等需要表达多样性的任务，过度屏蔽“不重要”的词语可能会限制创作的丰富性。就像在诗歌中，某些看似冗余的修饰词，反而可能是点睛之笔。

总而言之，ProFit代表了AI训练方法论的一次有意义的前进。它没有选择简单粗暴地增加数据或算力，而是教会AI如何更“聪明”地学习——如同一位好老师，其价值不在于布置更多作业，而在于教会学生抓住重点。

这项技术的意义，不仅在于提升了模型性能，更在于提供了一种新思路：让AI在一定程度上参与指导自身的学习过程，而非被动接收所有信息。这种“元学习”的思维，或许将催生更多创新方法。

对普通用户而言，ProFit意味着未来的AI助手可能会变得更可靠、更精准。虽然这种改进未必立竿见影，但随着技术普及，我们有望看到AI工具在各行各业的表现稳步提升。

这项研究也揭示了一个常被忽视的道理：有时解决问题的关键，不在于做得更多，而在于做得更巧。ProFit通过一个巧妙而直接的机制，有效缓解了AI训练中的关键痛点。随着更多研究团队跟进与优化，我们有理由期待AI技术在准确性与可靠性上迎来新的突破。

Q&A

Q1：ProFit技术是如何判断哪些词语重要哪些不重要的？

A：ProFit依据的是AI模型自身的预测自信度。模型对某个词语的预测自信度高，通常意味着该词语承载了重要的逻辑信息；自信度低的，则多为可替换的表达方式。ProFit会设定一个自信度阈值，只对超过该阈值的重要词语进行重点训练。

Q2：ProFit训练方法比传统方法提升了多少性能？

A：在不同测试任务中，ProFit带来了3到11个百分点的性能提升。例如在科学推理任务GPQA-Diamond上提升显著，在数学推理与指令理解等任务上也有明显进步。同时，ProFit训练速度更快，且避免了传统方法可能导致的性能退化问题。

Q3：ProFit技术有什么局限性吗？

A：ProFit主要优化逻辑推理类任务。对于创意写作等需要丰富表达的任务，其“屏蔽”机制可能会无意中过滤掉一些有助于多样性的词语。此外，其效果依赖于训练数据的质量，高质量数据能让重要性判断更为准确。

来源:https://www.techwalker.com/2026/0128/3177939.shtml

上一篇：厦门大学团队实现AI智能助手诚实应答重大突破让机器人学会说不知道

下一篇： DeepMind推出AI安全监控技术通过大脑扫描识别恶意攻击

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

NS版饿殍明末千里行今日发售全流程攻略与剧情解析

洛克王国倒影暗域地图位置与进入方法详解

洛克王国奇丽花性格选择攻略与对战搭配指南

洛克王国铁居小堡技能组合与实战搭配攻略

洛克王国水晶地穴位置与进入方法详解

洛克王国月光桃源进入条件与VIP权限详解

DNF千海天版本光枪毕业装备搭配指南

DNF千海天版本驱魔师最强毕业装备搭配指南

植物大战僵尸网页版2026最新官方入口地址与登录指南

DNF千海天混沌魔灵毕业装备搭配攻略

小米汽车推出寻天子品牌增程车型将改变家用车市场格局

张雪机车WSBK再夺冠 A股“朋友圈”不断刷新：谁将分享胜利

云端上网难普及！揭秘飞机Wi-Fi为何落地这么慢

C#怎么实现泛型编程_C#如何使用泛型类和泛型方法提高代码复用【基础】

C++如何获取当前进程的虚拟内存大小 _ 平台特定API调用方法【实战】

C#怎么实现享元模式_C# Flyweight减少大量细粒度对象内存【性能】

C++ std::is_trivially_destructible用法 _ 优化大规模对象销毁效率【干货】

C#如何进行Base64编码转换_C#图片与字符串Base64互转【实用】

C++ Linux编程中怎样使用智能指针

C++ Linux系统中怎样进行内存映射

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

清华大学与香港大学合作研发AI核心信息识别新技术

一、发现AI学习的“轻重缓急”问题

二、ProFit：让AI学会“抓重点”

三、令人惊喜的实验结果

四、深入理解ProFit的工作机制

五、ProFit在强化学习中的进阶应用

六、技术细节与实现考量

Q&A

Canva最新版支持单位格式转换吗度量衡功能详解

字节跳动加码AI算力投资超2000亿重点布局国产芯片

Anthropic回应Claude被指勒索问题源于互联网长期将AI妖魔化

2026年AI眼镜竞争加剧苹果入局前各厂商蓄势待发

Anthropic与马斯克合作后获122亿云计算大单

清华大学与香港大学合作研发AI核心信息识别新技术

一、发现AI学习的“轻重缓急”问题

二、ProFit：让AI学会“抓重点”

三、令人惊喜的实验结果

四、深入理解ProFit的工作机制

五、ProFit在强化学习中的进阶应用

六、技术细节与实现考量

Q&A

Canva最新版支持单位格式转换吗 度量衡功能详解

字节跳动加码AI算力投资超2000亿 重点布局国产芯片

Anthropic回应Claude被指勒索问题源于互联网长期将AI妖魔化

2026年AI眼镜竞争加剧 苹果入局前各厂商蓄势待发

Anthropic与马斯克合作后获122亿云计算大单

Canva最新版支持单位格式转换吗度量衡功能详解

字节跳动加码AI算力投资超2000亿重点布局国产芯片

2026年AI眼镜竞争加剧苹果入局前各厂商蓄势待发