陈丹琦团队:LLM指令微调用5%数据反超全量
普林斯顿陈丹琦团队提出LESS方法,通过优化器感知梯度特征从指令微调数据中精准选出5%的高影响力数据。训练效果优于全量数据集,且在不同模型和数据集上通用,小模型挑选的数据可有效提升大模型性能。
【导读】来自普林斯顿大学陈丹琦团队的最新研究成果,提出了一种名为LESS的高效数据选择方法。在指令微调场景中,仅需挑选5%的数据用于训练,其效果即可超越使用完整数据集的性能。更值得关注的是,这种方法在多种模型系列和不同数据集上均展现出良好的通用性。
简介
这篇题为《LESS: Selecting Influential Data for Targeted Instruction Tuning》的论文,由普林斯顿大学陈丹琦团队完成。陈丹琦本科毕业于清华大学姚班,博士期间在斯坦福大学师从Christopher Manning,此后加入普林斯顿大学担任计算机学院助理教授。她在求学与工作期间,已在ACL、EMNLP、NIPS等自然语言处理和机器学习顶会发表了多篇高水平论文。

论文思想
LESS的核心思想是“优化器感知”(Optimizer-Aware),通过这种机制,能够从海量指令数据中精准筛选出最关键的5%数据用于目标指令微调。实验表明,在多个下游任务中,使用这些精选数据训练的模型,其性能往往优于在完整数据集上训练的模型。更令人印象深刻的是,LESS算法选择的数据具有强大的迁移能力:使用小模型筛选出的数据,用于训练更大规模的模型时,效果依然优异,并且在不同的模型系列之间也具备通用性。
方法
整个流程分为四个步骤,具体实现如下:
1. 准备阶段(Warmup Training)
首先,采用LoRA(低秩适配)技术对预训练基座模型(如LLAMA-2-7B)进行参数高效微调。此举旨在显著减少可训练参数的数量,从而提升训练速度。接着,在训练集的随机子集上执行N个epoch的预热训练,使模型逐步适应特定的数据分布。每个epoch结束后,保存一次模型检查点。
2. 计算梯度特征(Compute Gradient Features)
对每个训练数据点,计算其在预热训练过程中产生的梯度。然后,利用随机投影技术(如Johnson-Lindenstrauss引理)将高维梯度压缩为低维表示,生成低维梯度特征。这些特征被存储在一个梯度数据存储库中,后续的数据选择步骤可直接复用,大大提升了效率。
3. 数据选择(Data Selection)
对于目标任务的验证集(仅需少量样本),计算每个子任务的平均梯度特征。随后,利用LESS算法评估每个训练数据点对验证集的潜在影响:具体通过计算数据点的梯度特征与验证集特征之间的相似度并打分。最后,根据得分排序,选择得分最高的训练数据(如前5%)作为最终训练集。
4. 目标模型训练(Training Final Model)
使用选出的数据子集训练目标模型。该步骤同样可以采用LoRA进行参数高效微调,或进行全参数微调。训练结束后,在测试集上评估模型性能,以验证LESS所筛选数据带来的性能提升幅度。
这一流程的根本逻辑在于,利用模型的梯度信息来估计每个数据点对目标任务的影响程度,从而选择那些“高影响力”的数据进行针对性训练,最终提升模型在特定任务上的表现。LESS方法的关键优势在于,它能够适配现有优化器(如Adam),同时有效处理可变长度的指令数据。此外,之前构建的梯度数据存储库可重复用于不同的目标任务,显著提高了数据选择的效率。
实验结果
实验部分对比了LESS方法与全量数据(100%)以及随机选择5%数据在不同模型和数据集上的表现。
以下为几个关键结论:
- LESS在多种模型上均有效。在所有模型和评估数据集上,LESS筛选出的数据表现始终显著优于随机选择。
- 选出的5%高价值数据,其效果往往可以超越完整数据集。
- 使用小模型选择的数据,能够有效提升更大模型或不同架构模型的性能。
- 与其他基线方法相比,LESS是唯一持续有效且稳定可靠的方法。
总结
本文提出了一种基于优化器感知影响力的数据选择算法——LESS。该方法构建了高效可重用的低维梯度特征存储库,使数据选择流程极为高效。实验验证了LESS相较于全量数据(100%)和随机数据(5%)的显著优势,同时展示了用小模型筛选数据来训练大模型的巨大潜力。分析和消融实验表明,LESS所选数据在可解释性方面表现更佳,当然其计算成本也相对较高。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:陈丹琦团队:LLM指令微调用5%数据反超全量要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点Coze空间具备上传附件识别文字、MCP扩展调用外部工具及探索与规划两种模式。规划模式能执行深度研究并实时追踪Agent思考过程,但无法访问权限受限网站。与工作台不同,空间专为适配未来协议而生,不涉及Agent搭建。
智谱清影在1080p 30fps输出下光影过渡平滑、运动节奏自然、纹理稳定,整体画面质感优于Vidu。Vidu免费版受限,实测存在云层亮度突变、动作轨迹偏移、天线抖动及瞳孔反光静止等问题,影响观感。
2026年全国科技活动周石楼县系列活动走进第七小学,通过人工智能讲座、AI图像生成体验、机器狗互动等多元形式,激发青少年科学兴趣,点亮科学梦想,播撒创新种子。
在人工智能的 Agent 设计中,ReAct(Reasoning + Acting)框架凭借其独特的决策与推理能力,一直是备受关注的核心方法之一。今天,咱们就通过一个用 LangChain SQLAgent 实现自然语言数据库查询的具体案例,把 ReAct 框架的基本工作原理彻底拆解清楚。 整篇文章
- 日榜
- 周榜
- 月榜
热点快看
