代码指令调优：高质量数据获取实用方法

AI热点日报时间：2026-05-30

热点解读

长期以来，业界的研究重点多集中在如何生成、发现及筛选高质量的通用指令微调数据上。然而，随着代码任务逐渐成为大语言模型应用的热点，一个自然且关键的问题浮出水面：我们应该怎样针对代码任务专门构建更优质的指令微调数据？最近一篇极具参考价值的论文对此进行了清晰拆解。其核心思路是从指令复杂度、回复质量以及指

长期以来，业界的研究重点多集中在如何生成、发现及筛选高质量的通用指令微调数据上。然而，随着代码任务逐渐成为大语言模型应用的热点，一个自然且关键的问题浮出水面：我们应该怎样针对代码任务专门构建更优质的指令微调数据？

最近一篇极具参考价值的论文对此进行了清晰拆解。其核心思路是从指令复杂度、回复质量以及指令多样性三个维度，对数据样本进行全面“体检”，从而筛选出最优质的样本。同时，该论文还揭示了一个值得关注的现象：当前部分代码指令数据在 HumanEval 基准测试中存在严重的数据泄露问题。以下信息均源自论文原文及开源项目（Paper, Github, Data-HF），我们一起来深入分析。

数据筛选：三个维度，一把标尺

整个筛选流程相当于对一个海量数据池进行“择优录取”。具体操作上，先利用复杂度评分器和单元测试模型，为数据池中的每条数据分别打出复杂度分数和质量分数。接着，将这两个分数归一化后，通过线性组合得到综合评分。最后，依据综合评分排序，并引入多样性进行迭代采样，直至筛选出的数据集达到目标规模。完整的算法流程请参考下图。

复杂性评分器：如何实现？首先借助 self-instruct 方法构建一个小型种子数据集，随后借鉴 WizardCoder 的思路，对提示词进行多次深度进化，生成多轮数据。这里的轮次数量接被用作复杂性的度量指标，并用于训练最终的评分器。
单元测试模型：代码质量如何？运行测试是最直观的验证方式。此处，单元测试的数量被作为响应质量的衡量标准。具体做法是使用 6k 数据训练一个基于 LLaMA3-70B-Base 的模型来完成这一任务。测试时，模型为每个样本生成 12 个测试用例并执行，通过的用例数即为质量分数。
多样性采样：该步骤采用迭代方式执行。每次从数据池中选取一个样本，判断它能否提升当前数据集的数据多样性。若答案为是，则将其加入。多样性贡献度由样本与其在数据集中最近邻居之间的嵌入距离以及一个超参数共同决定。

效果分析：精挑细选，效果拔群

为了拼凑出最优的代码指令微调数据集，研究者收集了各类开源数据，总计 250 万条。数据池规模庞大，必须进行过滤。流程如下：先选取几个成熟的学术数据集，筛选出长度最长的 20 万条；再从中挑出复杂度评分最高的 20 万条；最后一步去重。最终，获得了 33.6 万条精炼数据。

在 LLaMA3-8B-Base 上进行的实验极具说服力。仅用 40K 数据，便已在 LiveCodeBench 和 BigCodeBench 上超越基线模型的效果；当数据量增加至 80K 时，各项指标持续攀升。

基于 LLaMA3-70B-Base 训练的 XCoder-70B 模型，一举成为当时效果最优的开源代码大模型。

然而，有趣的是，它在 HumanEval 上并非最优。原因并不复杂：Magicoder-Evol-Instruct 和 Codefuse-Evol-Instruct 这两个数据集在 HumanEval 上存在数据泄露问题。

为解决这一问题，研究者还提出了一个名为 TLI（测试泄露指标）的新指标，用于量化训练集对测试集的泄露程度。其原理是对数据集生成 n-gram 片段，计算测试集样本的 n-gram 与训练集的重合比例，重合度越高，泄露风险越大。

后续的消融实验也证实，复杂性、响应质量和多样性这三个维度对最终数据质量的提升均起到了积极作用。一个更直观的结论是：在复杂性评估环节，复杂性评分器的效果远优于指令长度、困惑度，甚至超过了随机筛选。而在单元测试模型方面，他们自行训练的 Llama3-70B 模型表现甚至超越了 GPT-4。

最令人印象深刻的是，使用 XCoder 方法精选出的 10K 数据，其训练效果即可媲美随机选择的 160K 数据，效率提升了整整 16 倍。同时，文章还分析了 XCoder 的数据组成，重新评估了不同数据源的优缺点，这对后续的数据构建工作具有重要的参考价值。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：代码指令调优：高质量数据获取实用方法要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/finetuning/2024091038491.html

ai 人工智能

上一篇：如何用智谱清影生成真实App用户操作界面

下一篇：林望星隐姓埋名回国，AI精英暗中助妻十年

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周乌克兰AI无人机一周摧毁俄军14辆补给车 02 / 本周GitHub Copilot插件出现命令github.copilot.generate未找到错误的详细修复方法 03 / 本周亚马逊星巴克Uber微软AI项目接连受挫成本飙升成效不佳 04 / 本周用ChatGPT快速进行用户画像分析 05 / 本周刘云辉教授解读机器人发展前世今生从核电厂研究到孵化创科独角兽

01 / 本月乌克兰AI无人机一周摧毁俄军14辆补给车 02 / 本月GitHub Copilot插件出现命令github.copilot.generate未找到错误的详细修复方法 03 / 本月亚马逊星巴克Uber微软AI项目接连受挫成本飙升成效不佳 04 / 本月用ChatGPT快速进行用户画像分析 05 / 本月刘云辉教授解读机器人发展前世今生从核电厂研究到孵化创科独角兽

热点快看

05-30 11:23乌克兰AI无人机一周摧毁俄军14辆补给车 05-30 11:22GitHub Copilot插件出现命令github.copilot.generate未找到错误的详细修复方法 05-30 11:22亚马逊星巴克Uber微软AI项目接连受挫成本飙升成效不佳 05-30 11:21用ChatGPT快速进行用户画像分析 05-30 11:21刘云辉教授解读机器人发展前世今生从核电厂研究到孵化创科独角兽

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别