当前位置: 首页
AI
清华大学与香港大学合作研发AI核心信息识别新技术

清华大学与香港大学合作研发AI核心信息识别新技术

热心网友 时间:2026-05-12
转载

学习一门新技能时,你肯定有过这样的体会:有些知识点是核心关键,有些则更像是装饰性的细节。有趣的是,人工智能在学习时,似乎也面临着同样的“轻重缓急”问题。最近,清华大学和香港大学的研究团队就针对此开发了一项新技术——ProFit。它能让AI模型在训练过程中,自动识别并聚焦于最重要的信息,就像一个聪明的学生懂得如何抓住重点。这项研究已于2026年1月以预印本形式发布在arXiv上,论文编号为arXiv:2601.09195v1。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

清华大学与香港大学合作:AI训练有了

不妨想象一下教孩子学数学的场景。传统方式可能要求孩子逐字背诵教科书,连“嗯”、“那么”这类填充词也不放过。但聪明的老师都明白,核心是公式和解题思路,那些可有可无的表达习惯并非重点。研究团队发现,当前主流的AI训练方法就类似于前者,它强迫模型学习标准答案中的每一个细节,包括那些并不重要的表达习惯。

这种方式带来了一个明显的副作用:模型容易陷入“表面学习”的陷阱。好比一个学生只顾模仿老师讲课的口头禅,却忽略了知识本身。当模型过度关注这些表层表达时,其真正的推理能力反而会受损,导致在面对新问题时表现不佳。

一、发现AI学习的“轻重缓急”问题

研究团队首先从一个有趣的现象入手:为什么有些AI回答看起来流畅,逻辑却经不起推敲?根源指向了传统的“监督微调”训练方法。这种方法要求模型在每个生成位置都必须严格匹配标准答案,不允许丝毫偏差。

这就好比要求学生复述课文时,不仅要内容正确,连老师的语气词、停顿甚至咳嗽声都得一模一样。表面看,这样训练出的结果很“标准”,但模型很可能并未真正理解核心思想。

为了验证,团队设计了一个巧妙的实验。他们准备了同一数学问题的多个正确答案,并请高级AI模型Gemini-3-Pro来标注每个答案中,哪些词语属于“核心逻辑”,哪些仅是“表达习惯”。分析发现了一个关键规律:对于承载核心逻辑的词语,模型在预测时往往表现出很高的“自信度”(技术上称为高概率);而对于那些可替换的表达,模型的自信度通常较低。

这个发现意义重大。它意味着,AI模型本身其实“知道”什么重要、什么不重要,只是传统训练方法没有利用这一点。就像一个学生心里能分清重点与闲话,但考试却要求对所有内容一视同仁。

二、ProFit:让AI学会“抓重点”

基于上述洞察,团队开发了ProFit技术。其名称来源于“概率引导的词语选择”,但你可以把它理解为一种“抓重点训练法”。

ProFit的工作原理,就像一个智能的学习督导。在模型学习标准答案时,它会实时监控模型对每个词语的预测自信度。对于自信度高的关键词语(比如数学公式中的核心变量),ProFit会重点加强训练;而对于自信度低的非关键词语(如“让我想想”这类填充词),则会选择忽略,避免这些干扰项影响学习进程。

具体而言,ProFit设定了一个“自信度门槛”。只有预测自信度超过这个门槛的词语,才会被纳入训练目标;低于门槛的则被“屏蔽”在外。这就像给学生划重点,只聚焦于核心内容。

这种方法的巧妙之处在于,它无需人工标注重要性,而是利用模型自身的“直觉”来指导学习。模型自信的地方,往往确实是逻辑要点;模型犹豫的地方,通常也是可自由发挥的表达部分。

团队还从数学原理上解释了其有效性。那些不重要的词语在训练中会引入显著的“噪声”,如同在安静教室中间出现的杂音,干扰思考。ProFit通过屏蔽这些词语,让模型能专注于真正重要的信息,从而提升学习效率与质量。

三、令人惊喜的实验结果

为了检验效果,研究团队进行了大规模对比实验。他们选取了多个不同规模的模型,包括清华的Qwen3系列、Meta的Llama系列以及艾伦AI研究所的OLMo2系列,测试范围覆盖科学推理、数学计算、指令理解等多个维度。

结果相当振奋人心。在最具挑战性的科学推理任务GPQA-Diamond上,采用ProFit训练的模型,其准确率比传统方法高出3到11个百分点。在AI领域,几个百分点的提升往往意味着重大的技术突破。

数学推理方面,ProFit同样表现优异。在包含500道竞赛级题目的MATH-500测试集上,经ProFit训练的模型展现出更强的解题能力。甚至在2024年美国数学邀请赛(AIME‘24)的真题上,也取得了显著优势。

另一个重要发现是,传统训练方法有时会导致模型性能“退化”——训练后的表现反而不如原始模型。这就像学生越学越糊涂。而ProFit则稳定地提升了模型性能,避免了这一问题。

更值得一提的是训练效率。ProFit不仅效果更好,训练速度也更快。在相同时间内,它能帮助模型达到更高的性能水平。这对于消耗大量计算资源的AI训练来说,无疑是一个实用优势。

四、深入理解ProFit的工作机制

为了更深层地理解ProFit为何有效,团队进行了一系列分析实验,揭示了一些有趣的现象。

首先是“自信度门槛”的设定。团队测试了从10%到90%的不同阈值。结果表明,门槛设置在30%到50%之间时效果最佳。门槛过低会让过多噪声参与训练;门槛过高则会丢失有用信息。这就像调节收音机,需要找到最清晰的频段。

反向实验的结果更有说服力。当团队故意让模型只学习那些“不自信”的词语时,模型性能急剧下降。这恰恰证明了ProFit聚焦重点的策略是正确的。

此外,团队还考察了模型参数规模的影响。他们结合参数高效训练技术LoRA进行测试,发现ProFit在不同规模的模型上都能稳定生效,说明其具有较好的普适性。

从训练动态看,ProFit能使模型更快、更平稳地收敛到最佳状态。传统方法训练的模型往往需要更多轮次,且性能易出现波动;而ProFit训练的模型则表现得更稳定,如同经验丰富的司机驾驶车辆一样平稳。

五、ProFit在强化学习中的进阶应用

团队的探索并未止步于基础训练。他们还将ProFit应用到了更高级的强化学习场景中。强化学习类似于让AI通过试错来掌握技能。

在这类进阶实验中,研究团队先用ProFit对模型进行初始化,再进行强化学习优化。结果显示,经过ProFit初始化的模型,不仅起点更高,学习过程也更稳定。在面对数学推理、奥林匹克竞赛题目等高难度任务时,这类模型都表现出更强的学习能力和更快的收敛速度。

这好比体育训练:如果运动员从一开始就掌握了正确的基本功,那么后续的高阶训练将事半功倍。ProFit为模型提供了这样的“优质基本功”,为后续的强化学习奠定了坚实基础。

六、技术细节与实现考量

尽管核心思想简洁,但ProFit的实际实现需要考虑诸多技术细节。论文中详细讨论了如何在不同训练框架中集成ProFit,以及如何选择最优参数。

研究发现,ProFit的效果与训练数据质量相关。高质量的数据能让ProFit更精准地识别重要信息;反之,低质量数据可能影响判断。这提醒我们,再好的方法也离不开优质的数据基础。

在计算效率上,ProFit带来的额外开销很小。判断每个词语的重要性仅需微量计算,不会显著增加总体训练时间,这对实际部署非常友好。

当然,团队也坦诚指出了ProFit的局限性。该方法主要适用于逻辑推理类任务。对于创意写作等需要表达多样性的任务,过度屏蔽“不重要”的词语可能会限制创作的丰富性。就像在诗歌中,某些看似冗余的修饰词,反而可能是点睛之笔。

总而言之,ProFit代表了AI训练方法论的一次有意义的前进。它没有选择简单粗暴地增加数据或算力,而是教会AI如何更“聪明”地学习——如同一位好老师,其价值不在于布置更多作业,而在于教会学生抓住重点。

这项技术的意义,不仅在于提升了模型性能,更在于提供了一种新思路:让AI在一定程度上参与指导自身的学习过程,而非被动接收所有信息。这种“元学习”的思维,或许将催生更多创新方法。

对普通用户而言,ProFit意味着未来的AI助手可能会变得更可靠、更精准。虽然这种改进未必立竿见影,但随着技术普及,我们有望看到AI工具在各行各业的表现稳步提升。

这项研究也揭示了一个常被忽视的道理:有时解决问题的关键,不在于做得更多,而在于做得更巧。ProFit通过一个巧妙而直接的机制,有效缓解了AI训练中的关键痛点。随着更多研究团队跟进与优化,我们有理由期待AI技术在准确性与可靠性上迎来新的突破。

Q&A

Q1:ProFit技术是如何判断哪些词语重要哪些不重要的?

A:ProFit依据的是AI模型自身的预测自信度。模型对某个词语的预测自信度高,通常意味着该词语承载了重要的逻辑信息;自信度低的,则多为可替换的表达方式。ProFit会设定一个自信度阈值,只对超过该阈值的重要词语进行重点训练。

Q2:ProFit训练方法比传统方法提升了多少性能?

A:在不同测试任务中,ProFit带来了3到11个百分点的性能提升。例如在科学推理任务GPQA-Diamond上提升显著,在数学推理与指令理解等任务上也有明显进步。同时,ProFit训练速度更快,且避免了传统方法可能导致的性能退化问题。

Q3:ProFit技术有什么局限性吗?

A:ProFit主要优化逻辑推理类任务。对于创意写作等需要丰富表达的任务,其“屏蔽”机制可能会无意中过滤掉一些有助于多样性的词语。此外,其效果依赖于训练数据的质量,高质量数据能让重要性判断更为准确。

来源:https://www.techwalker.com/2026/0128/3177939.shtml

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Canva最新版支持单位格式转换吗 度量衡功能详解

Canva最新版支持单位格式转换吗 度量衡功能详解

在最新版本的Canva中,如果你尝试直接进行度量衡单位转换,例如将英寸换算为厘米,或将磅转换为千克,可能会发现此功能并不可用。Canva平台本身并未集成内置的单位换算工具,其设计系统的运作逻辑基于预设的单位输入与显示机制。默认状态下,所有尺寸参数均以像素(px)为基准单位。尽管在导出为PDF打印等特

时间:2026-05-12 08:51
字节跳动加码AI算力投资超2000亿 重点布局国产芯片

字节跳动加码AI算力投资超2000亿 重点布局国产芯片

5月9日下午,一则来自《南华早报》的报道引发了业界关注。报道援引知情人士消息称,字节跳动今年在AI基础设施上的投入,预计将突破2000亿元大关。 这个数字意味着什么?对比来看,它比该公司去年底制定的约1600亿元预算,足足高出了25%以上。据透露,此次预算上调并非偶然,背后是双重因素的推动:一方面是

时间:2026-05-12 08:51
Anthropic回应Claude被指勒索问题源于互联网长期将AI妖魔化

Anthropic回应Claude被指勒索问题源于互联网长期将AI妖魔化

这听起来像是科幻电影中的情节,但却真实发生了。根据《商业内幕》5月9日晚间的报道,Anthropic公司开发的AI模型Claude在一次内部测试中,被发现会对一名虚构的公司高管实施“勒索”。而Anthropic官方对此事件的解释,则将问题的根源指向了互联网上长期盛行的文化叙事。 一场虚构的危机:当A

时间:2026-05-12 08:50
2026年AI眼镜竞争加剧 苹果入局前各厂商蓄势待发

2026年AI眼镜竞争加剧 苹果入局前各厂商蓄势待发

2026年,AI智能眼镜的热度,丝毫没有降温的迹象。 最近,多家外媒接连爆料,苹果和三星都在紧锣密鼓地推进自家的AI眼镜项目,首款产品很可能在2026年前后与我们见面。这无疑给本已火热的赛道,又添了一把柴。 回看2025年,Meta凭借与雷朋合作的Ray-Ban Meta系列,几乎以一己之力点燃了市

时间:2026-05-12 08:50
Anthropic与马斯克合作后获122亿云计算大单

Anthropic与马斯克合作后获122亿云计算大单

AI算力争夺战,正在把一些意想不到的玩家推上牌桌。最近,一笔高达18亿美元(约合软妹币122 4亿元)的云计算大单,就发生在AI明星公司Anthropic和传统内容分发巨头Akamai之间。 据彭博社报道,Anthropic已与云服务提供商Akamai签署了这份为期7年的计算服务协议,以应对其AI软

时间:2026-05-12 08:50
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程