当前位置: 首页
AI
英属哥伦比亚大学与Meta联合研发AI数据筛选技术一次扫描替代数小时计算

英属哥伦比亚大学与Meta联合研发AI数据筛选技术一次扫描替代数小时计算

热心网友 时间:2026-05-15
转载

2026年4月,一项由英属哥伦比亚大学、Vector研究所与Meta联合开展的研究,在arXiv平台上发布了一份预印本论文,编号为arXiv:2508.10180v3。这项名为“For-Value”的研究,提出了一套评估大语言模型与视觉语言模型训练数据价值的新框架,其思路堪称碘伏。

不读原论文也能看懂:英属哥伦比亚大学与Meta联合研发的AI数据

如今,全球数亿用户每天都在与ChatGPT、文心一言这类AI助手互动。它们之所以能对答如流,根本在于其“学习”了海量的数据。然而,一个常被忽视的核心挑战是:训练数据的质量良莠不齐。一旦混入错误标注、无关信息或带有偏见的内容,AI的回答就可能出现事实错误,甚至产生系统性偏差。

这好比一位厨师学艺——如果师傅传授的食谱里有一半是错的,任凭厨师天赋再高、练习再勤,最终菜品的质量也难以保证。为此,研究人员长期致力于开发“数据价值评估”技术,简单说,就是给每一条训练数据打分,筛选出真正有益的“好食谱”,剔除那些会带偏模型的“烂数据”。

但传统的数据打分方法有个致命弱点:计算成本高得惊人。主流方法需要模型进行“反向思考”,即执行梯度反向传播计算。这相当于让厨师不仅要把菜做出来,还得把整个烹饪过程倒着重演一遍,分析每个步骤对最终味道的影响。对于参数动辄数十亿、数百亿的现代大模型而言,这个过程耗时数小时乃至数天,算力消耗巨大。

正是在这个背景下,研究团队提出了一个碘伏性的问题:能否不做复杂的“反向演算”,仅凭一次“正向推理”就完成数据打分?他们的答案是肯定的,这套方法就是For-Value。

一、为什么给训练数据打分这么难

要理解For-Value的突破性,得先看清传统方法的瓶颈究竟在哪。

现代AI模型的核心运作模式是“预测下一个词”。给定一段文字,模型计算出所有可能的后续词汇,并选择概率最高的那个。这个过程从头到尾是单向的,即“前向传播”,就像厨师按食谱一步步操作。

数据价值评估要回答的问题是:某一条特定的训练数据,究竟让模型在处理某个验证任务时变得更好还是更差?这听起来直观,但实现起来需要知道“如果去掉这条数据,模型的表现会怎么变”。传统方法要回答这个问题,必须追溯模型参数的变化轨迹,这就离不开梯度反向传播。

更棘手的是,现代大模型的参数量极其庞大。像Llama-3或Qwen-2.5这类模型,参数规模在几十亿到几百亿之间。计算每条数据对所有参数的影响,再将其传递到最终预测结果,相当于要在一个拥有数十亿变量的方程组里逐一求解。因此,即便是最先进的Hessian矩阵方法,对大模型也基本不可行;而像DataInf和HyperINF这类近似计算方法,完成一次数据评分也需要数小时。

此外,传统方法还存在批量处理的瓶颈:由于每条数据的梯度必须单独计算,无法同时处理大量数据,这使得并行加速几乎不可能,进一步拖慢了整体效率。

二、For-Value的核心思路:看“最后一层”就够了

For-Value的核心洞察源于一个理论推导:在充分预训练的大模型中,数据价值的信号其实已经被压缩进了模型最后一层的隐藏表示里,无需逐层反向追溯。

用之前的比喻来理解:当一道菜端上桌,经验丰富的美食评论家只需品尝最终成品,就能大致判断哪些原材料贡献最大——他不需要亲自进厨房把每个步骤倒着重演。For-Value的思路与此类似:利用预训练大模型已积累的丰富“经验”,只看最终输出层的表现,就能高效评估每条训练数据的贡献。

具体来说,该方法基于一个可严格证明的数学结论:对于表达能力充分的大模型,某条训练数据对验证样本的影响,可以用一个简洁的闭合公式来表达。这个公式只依赖两类信息:一是训练数据和验证数据在模型最后一层的“隐藏嵌入”(可理解为模型对数据的深层语义理解);二是两者在每个最小文本单位(词元)上的“预测误差”,即模型预测概率与真实结果之间的差距。

这个公式本质上衡量两件事的相似程度:一是语义相似度(通过隐藏嵌入的内积衡量),二是在哪些位置上模型感到“困难”、预测不够自信(通过预测误差衡量)。如果一条训练数据与验证数据语义相近,且在相同位置让模型感到困惑,那么它对帮助模型处理该验证任务就极具价值——好比两道菜用了相似食材,且在相同烹饪步骤上容易出错,那么解决一道菜的经验对另一道就很有帮助。

这里的关键理论前提是“无约束特征假设”:充分预训练的大模型具有足够强的表达能力,可以产生不受特定架构约束的自由嵌入表示。该假设在大模型分析领域已被广泛采纳,是For-Value理论推导的基石。

三、从理论到实践:For-Value算法是如何运作的

理解了核心思路,再看For-Value的实际操作流程,其优雅之处在于极度的简洁。

整个打分过程只需一次前向传播。具体步骤是:首先,将待评估的验证样本输入模型,记录其在每个位置的最后一层隐藏嵌入和预测概率分布;然后,批量输入所有训练数据,同样记录它们的最后一层隐藏嵌入和预测概率分布;最后,用前述公式计算每条训练数据与验证样本之间的得分,并排序输出。

当然,这里还有一个工程挑战需要克服:预测误差向量的维度等于词汇表大小(通常超过十万),直接计算会产生天文数字级别的内存消耗。研究团队的应对策略是利用“稀疏性”——实际上,模型的预测概率质量高度集中在少数词元上,真正需要关注的只是出现在当前批次样本中的词汇(称为“批内词汇”),其数量远小于完整词汇表,从而将计算量大幅压缩至可行范围。

由于整个过程不涉及任何反向传播,每条数据的得分计算可以完全并行化处理。这意味着可以用大批次同时处理海量训练数据,而不像传统方法那样必须逐条串行计算。这种批量并行能力是For-Value效率优势的另一重要来源。

四、实验验证:在多种任务上的表现

研究团队在一系列任务上对For-Value进行了系统验证,覆盖了文本语言模型和视觉语言模型两大类别,以及多种规模的模型。

在“影响力数据识别”任务上,目标是找出对某个测试样本影响最大的训练数据。团队使用了三类文本任务:句子变换(如词序倒排、元音字母替换等十种规则)以及有无推理过程的数学应用题。在这些任务上,For-Value不论是在衡量整体排序质量的AUC指标,还是找出真正有影响力样本的召回率上,都达到了接近满分的水平,明显优于传统的Hessian-free方法,并与计算成本更高的DataInf和HyperINF方法相当甚至更优。

以Qwen-2.5-1.5B模型为例,在句子变换任务上,For-Value的召回率达到0.989,而最强的传统基线HyperINF为0.934;在数学题任务上,For-Value召回率为0.998,HyperINF为0.950。这个差距在实际应用中意义重大,多找出6%的有价值数据,往往意味着模型性能的实质性提升。

在视觉语言模型上,团队使用了Qwen2.5-VL-3B和Llama-3.2-11B-Vision两款模型,测试了“主体生成”(为特定物体或动物的图片生成描述)和“风格生成”(为卡通、像素艺术等风格图片生成描述)两类任务。

在主体生成任务上,For-Value表现出色,在11B模型上的召回率为0.985,高于HyperINF的0.919。更值得关注的是风格生成这个更困难的任务——传统方法在这里集体“哑火”,AUC仅在0.49到0.52之间徘徊(接近随机猜测的0.5),而For-Value的AUC高达0.895至0.974,展现出压倒性优势。这说明在数据分布复杂、类别差异微妙的场景下,For-Value的理论设计更贴近大模型的实际学习机制。

在“错误标注数据检测”任务上,团队使用了经典的猫狗分类数据集,人为地将50%的标签调换,然后测试各方法能否从混乱数据中找出错误样本。在Qwen-VL-3B模型上,For-Value的AUC为0.885,比最强基线HyperINF的0.770高出11.5%;召回率达到0.999,也比HyperINF的0.916高出8.3%。For-Value在不同噪声比例下的鲁棒性测试也显示,其表现始终保持稳定。

五、实用价值:帮助模型从噪声数据中学到真正有用的东西

除了识别重要数据和错误数据,研究团队还测试了For-Value在实际微调场景中的价值——即用它筛选高质量训练子集,仅用这些精选数据微调模型,并观察最终性能。

第一个场景是数学推理,使用GSM8K数据集。以Llama-3.1-8B模型为基础,用For-Value筛选出最有价值的5%数据进行微调,最终在测试集上的准确率达到48.3%,不仅比使用全量数据训练的47.8%更高,也比最强基线HyperINF高出5.5%。即便只选取1%的数据,For-Value仍比所有基线方法高出最多3.3%。与此同时,For-Value完成数据评分仅需0.3小时,而HyperINF需要2.4小时,效率提升超过5倍。

第二个场景更接近现实的“脏数据”挑战。团队构建了一个名为“Noise-Huatuo-Complex-CoT”的医疗问答数据集,从原始的5000条数据中,随机对40%的样本注入噪声——要么随机删除词汇,要么插入无意义的噪声词。

在如此嘈杂的数据环境下,For-Value仅用5%的高质量数据微调,就在五个医疗QA测试集上取得了平均60.31%的准确率,比次优方法DataInf高出3%。使用10%数据时,平均准确率进一步提升至62.35%,全面领先所有基线。团队还统计了各方法找出真正干净数据的准确率:For-Value以84.4%遥遥领先,而Hessian-free为48.2%,DataInf为33.2%,HyperINF仅有15.1%。这解释了为何在噪声数据场景下,For-Value的优势特别明显,因为它真正具备区分高质量数据与噪声数据的能力。

第三个场景是医学视觉问答。使用PMC-Reasoning数据集评估Qwen2.5-VL-3B模型,For-Value在10%和20%数据筛选场景下均取得最高平均准确率,且评分耗时仅0.4小时,而基线方法需要1.3至1.7小时。

六、效率优势:从几小时压缩到几分钟

效率方面的提升幅度,足以改变这类技术的实用价值。

在大型模型上,这种差距尤为显著。以Qwen-32B模型为例,HyperINF完成一次数据评分需要约6小时,而For-Value只需几百秒——两者相差超过30倍。更重要的是,For-Value不需要对模型进行任何微调训练就可以直接使用,而DataInf和Hessian-free都需要先把模型微调到收敛,这本身就是一笔额外的开销。

研究团队在论文中提供了详细的计算复杂度对比。传统方法的计算复杂度通常与模型层数、参数量成正比甚至更高次方增长,而For-Value的复杂度主要取决于模型维度和批内词汇表大小的乘积。由于批内词汇表通常远小于完整词汇表,实际计算量非常有限,内存占用也大幅降低。

For-Value还有一个独特优势:它与具体的训练算法无关,也不需要访问模型的梯度信息,因此可以在推理API接口上直接使用,理论上甚至适用于只提供推理服务而不开放权重的商业模型。

七、消融实验:预测误差权重的作用

研究团队通过消融实验,验证了For-Value设计中的一个关键组件。

在评估公式中,有一个名为α的权重项,它代表“预测误差的相似性”——即训练数据和验证数据在每个词元位置上的预测困难程度有多相近。如果把这个权重设为1(相当于忽略预测误差,只看语义相似度),For-Value就退化成了一个简单的文本嵌入相似度方法。

实验结果清晰地显示:去掉α权重后,性能大幅下降,在视觉语言任务中尤为明显。这验证了预测误差权重的不可或缺性。背后的直觉是:纯粹的语义相似度只能告诉你两条数据“说的是同一类事情”,但无法区分哪些部分对模型来说真正困难、真正需要学习。α权重通过聚焦于模型预测不自信的位置,有效过滤掉了模型已经轻松掌握的内容,让数据价值评估更精准地指向真正有学习价值的信号。

此外,团队还验证了For-Value在不同模型规模下的稳定性:从1.5B参数一直扩展到72B参数,其AUC和召回率始终保持在接近1.0的高水平,没有出现性能随规模下降的现象。这说明For-Value的理论基础与模型规模具有良好的兼容性。

八、这套方法的局限与未来方向

任何技术都有其边界,研究团队在论文中也坦诚讨论了For-Value的局限性。

For-Value目前专门针对微调阶段的数据评估,不直接适用于预训练阶段的数据筛选。原因在于预训练阶段的模型尚未充分收敛,“无约束特征假设”可能不成立,此时最后一层的隐藏表示可能无法充分捕捉数据价值的全部信号。

此外,数据价值在训练过程中会随模型状态的变化而演变。For-Value目前使用的是预训练初始化时刻的模型进行评估,对于长期训练中数据价值的动态变化没有直接的处理机制。将For-Value扩展为支持训练感知的动态数据筛选,或者整合进主动学习框架,是研究团队指出的未来方向。

归根结底,For-Value的贡献可以用一句话概括:用最少的计算资源,最准确地回答“这条数据值不值得用来训练AI”这个问题。

过去,回答这个问题需要让AI模型反复“回忆”每一个训练步骤,消耗数小时的计算时间,且难以大规模并行。For-Value证明,只要站在预训练大模型已经积累的丰富“常识”之上,仅需一次正向扫描,就能从数据的语义深度和预测困难程度两个维度,快速而准确地完成评估。

对于AI开发者而言,这意味着数据清洗和筛选的成本可以大幅降低,在资源有限的条件下,能更高效地找到真正有价值的训练数据,而非依赖“以量补质”的粗放策略。对于普通用户来说,这项技术的长远影响将体现在AI产品的回答更准确、偏见更少、对各类知识的掌握更均衡——因为它从源头上改善了AI学习的“食谱质量”。

Q&A

Q1:For-Value和传统数据价值评估方法(如DataInf)最核心的区别是什么?

A:传统方法依赖梯度反向传播计算,需要模型“倒着思考”每个训练步骤的影响,计算成本极高,且无法大批量并行处理。For-Value则完全不做反向计算,只需一次正向推理,利用模型最后一层的隐藏表示和预测误差就能完成评分。在实际测试中,For-Value比HyperINF快5倍以上,在32B参数模型上节省超过30倍时间,同时准确率持平甚至更优。

Q2:For-Value在噪声数据场景下为什么比其他方法表现好那么多?

A:传统影响函数方法依赖模型收敛到最优解的假设,而在有40%噪声的数据集里,这个假设很难成立,导致方法失效。For-Value识别干净数据的准确率达84.4%,而HyperINF只有15.1%,DataInf为33.2%。本质原因在于For-Value通过预测误差权重α聚焦于模型真正感到困难的位置,能有效区分“让模型学到真知识的数据”和“让模型学到错误模式的噪声数据”。

Q3:For-Value能用于预训练阶段的数据筛选吗?

A:目前不能直接用于预训练阶段。For-Value的理论基础依赖“无约束特征假设”,即模型已经充分预训练、具备足够的表达能力。预训练初期的模型尚未充分收敛,最后一层的表示可能无法捕捉数据价值的完整信号。研究团队明确指出,将For-Value扩展到预训练场景是未来的研究方向之一。

来源:https://www.techwalker.com/2026/0505/3185793.shtml

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
英属哥伦比亚大学与Meta联合研发AI数据筛选技术一次扫描替代数小时计算

英属哥伦比亚大学与Meta联合研发AI数据筛选技术一次扫描替代数小时计算

2026年4月,一项由英属哥伦比亚大学、Vector研究所与Meta联合开展的研究,在arXiv平台上发布了一份预印本论文,编号为arXiv:2508 10180v3。这项名为“For-Value”的研究,提出了一套评估大语言模型与视觉语言模型训练数据价值的新框架,其思路堪称碘伏。 如今,全球数亿用

时间:2026-05-15 15:12
雷克里森理工学院推出科学论文配图智能检索系统

雷克里森理工学院推出科学论文配图智能检索系统

这项由雷克里森理工学院(Rensselaer Polytechnic Institute)与芝加哥大学联合主导的研究成果,以预印本形式发布于arXiv平台,论文编号为arXiv:2604 20857v1。该研究于2026年2月28日发布,其核心研究方向归属于计算机科学中的信息检索领域(cs IR)。

时间:2026-05-15 15:12
腾讯QClaw集成腾讯文档与本地文件管理

腾讯QClaw集成腾讯文档与本地文件管理

近日,腾讯办公协同产品QClaw正式推出了全新的“文件空间”功能。该功能的核心价值在于,首次实现了用户本地计算机文件、腾讯云端文档与企业内部知识库平台(ima)三者的无缝打通与一体化管理。 这意味着,企业员工日常工作中产生的各类文档资产——包括存储在个人设备中的本地文件、用于团队实时协作的腾讯在线文

时间:2026-05-15 15:12
俄勒冈大学研究团队教会AI识别文章作者写作风格

俄勒冈大学研究团队教会AI识别文章作者写作风格

每个人都有独特的“写作指纹”。有人偏爱绵长的句式,有人行文干脆利落;有人善用感叹抒发情绪,有人则始终保持冷静克制的笔调;还有人总在不经意间将话题引向自己熟悉的领域。这些细微的语言习惯,如同指纹一般,构成了个体独特的“写作风格”。 正因如此,在版权纠纷中,文风分析可作为判定真实作者的有力工具;学术界借

时间:2026-05-15 15:12
加州大学圣克鲁兹分校AI桌面助手在复杂电脑任务中首次超越人类

加州大学圣克鲁兹分校AI桌面助手在复杂电脑任务中首次超越人类

想象一下,你对电脑说一句“帮我把这份演示文稿的页码改成红色”,它就能自己打开软件、找到设置、完成修改。这种能直接操作图形界面的AI助手,学术上称为“GUI智能体”,无疑是未来人机交互的一大愿景。 然而,现实中的AI助手远未如此可靠。它们常常陷入两个令人头疼的困境:要么“自我感觉良好”,任务没做完就急

时间:2026-05-15 15:11
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程