数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

Dify案例分享：基于文本模型实现Fine-tune语料构造工作流

AI热点日报时间：2026-06-29

热点解读

在AI应用落地领域深耕多年后，我发现AI模型的微调与训练早已不是什么新鲜事。尤其在大模型时代，这两项技术的应用范围不断扩展，其重要性也日益凸显。无论你是技术新手还是资深工程师，掌握微调方法都能显著提升模型在特定任务上的表现。一、什么是AI模型微调？简单来说，微调（Fine-tuning）就像你雇

在AI应用落地领域深耕多年后，我发现AI模型的微调与训练早已不是什么新鲜事。尤其在大模型时代，这两项技术的应用范围不断扩展，其重要性也日益凸显。无论你是技术新手还是资深工程师，掌握微调方法都能显著提升模型在特定任务上的表现。

一、什么是AI模型微调？

简单来说，微调（Fine-tuning）就像你雇佣了一位名校毕业的博士生（预训练模型）。他知识渊博，通晓天文地理，但当你让他“帮我分析这份财务报表”时，他可能需要先熟悉具体语境。微调正是让他在你的专属数据上“进修”，从通才转变为你的专属“金融分析师”。

其核心是迁移学习——将预训练模型在通用数据上学到的知识，迁移到你的特定场景中，为我所用。

具体操作通常分为以下几步：

选择基座模型： 从流行的预训练模型中挑选一个，比如BERT、GPT、T5等，根据任务需求和算力资源决定。
准备专属数据集： 收集与任务高度相关的标注数据，确保数据质量、代表性和标注一致性。
调整模型结构（可选）： 根据任务特点，可能需要增减网络层、更换激活函数或调整输出头。
设定训练超参数： 学习率、批量大小、训练轮数等直接影响最终效果，需反复调试。
开始训练： 将数据送入模型，迭代更新权重，同时监控验证集指标，防止过拟合。
评估与部署： 在测试集上验证，达到预期后即可上线使用。

上面讲完了理论，下面进入实操环节。微调与训练模型，数据集的质量至关重要。过去要么依赖人工标注，要么编写复杂脚本，门槛较高。有没有办法快速、低成本地构造微调语料？当然有！今天就带大家用Dify搭建一个微调语料构造工作流，像搭积木一样轻松搞定。直接上干货。

二、微调（Fine-tuning）语料构造工作流

先看最终成品，工作流结构如下：

整个流程拆分为5个环节：开始、文档提取器、代码执行、LLM大语言模型、结束。下面逐一拆解。

开始

打开Dify，创建空白工作流，输入应用名称。进入画布后，在“开始”节点设置两个输入参数：

attachments：用于用户上传文件。
触发词：对应训练时的System Prompt。

按照上图配置第一个参数，然后设置第二个参数“触发词”。至此，开始节点的两个输出参数完成。

文档提取器

点击开始节点右侧的加号，选择“文档提取器”。该节点输入变量直接引用开始节点的attachments数组参数即可。

代码执行

在文档提取器右侧加号中选择“代码执行”节点并连接。代码执行节点需设置输入参数：

参数名：articleSections
参数值：文档提取器的text（数组）

执行代码如下：

def main(articleSections: list) -> dict:
    try:
        # 将列表项合并为字符串
        combined_text = "n".join(articleSections)
        
        # 截取前80000个字符
        truncated_text = combined_text[:80000]
        
        return {
            "result": truncated_text
        }
    except Exception as e:
        # 错误处理
        return {
            "result": ""
        }

输出变量名result，类型选string。

这里简单说明：代码执行节点负责将多个文档的文本合并。由于Dify沙箱有长度限制，这里截取前8万字符。若需处理更长文本，可自行编写接口服务实现合并与截取。

LLM

在代码执行节点后接入LLM节点，它是整个工作流的核心——将接收到的文本通过提示词转换为微调数据集格式。

先看一条典型的微调数据样例：

{"messages": [{"role": "system", "content": "你是当代大儒"}, {"role": "user", "content": "应该怎么学习？"}, {"role": "assistant", "content": "贤贤易色；事父母，能竭其力；事君，能致其身；与朋友交，言而有信。虽曰未学，吾必谓之学矣。"}]}

实际微调数据集包含多条此类数据，通常以.jsonl格式保存。注意：示例格式可能与常见规范略有差异，但符合主流数据集规范即可。数据集构建涉及较多细节，这里不展开。

接下来配置LLM节点：

1.模型选择： 调用SiliconCloud平台上的Qwen/Qwen2.5-72B-Instruct-128K模型，性能强劲且价格实惠。

2.系统提示词： 明确LLM的角色和输出要求。

3.用户提示词： 将文本内容与触发词拼接作为输入。

系统提示词如下：

【角色】
你是一位 LLM 大语言模型科学家，参考用户提供的内容，帮助用户构造符合规范的 Fine-tune（微调）数据

【任务】
- 对于给定的「内容」，你每次列出 10 个通俗「问题」；
- 针对每个「问题」，引用「内容」原文及对内容的合理解释和演绎，做出「解答」；
- 并将「问题」「解答」整理为规范的 JSONL 格式

【要求】
1. 问题 **不要** 直接引用「内容」，应该贴近当代现实生活；
2. 问题应该是通俗白话，避免“假、大、空”；
3. 答案应忠于原文，对于原文的解释不能脱离原文的主旨、思想；

【输出规范】
* 输出规范的 JSONL，每行一条数据
* 每条数据应包含一个 message 数组，每个数组都应该包含 role 分别为 system、user 和 assistant 的三条记录
* 其中 role 为 system 的数据，作为训练中的 system prompt 格外重要，其 content 使用用户指定的「触发词」
* role 为 user 的数据对应列出的「问题」
* role 为 assistant 的数据则对应针对「问题」的「解答」
* 示例如下：
```
{"messages": [{"role": "system", "content": "你是当代大儒"}, {"role": "user", "content": "应该怎么学习？"}, {"role": "assistant", "content": "贤贤易色；事父母，能竭其力；事君，能致其身；与朋友交，言而有信。虽曰未学，吾必谓之学矣。"}]}
```

用户提示词部分，只需将代码执行节点输出的文本与触发词拼接传入即可。

结束

最后，在LLM节点右侧添加“结束”节点，输入参数直接引用LLM的text输出。至此，整个工作流搭建完成。

三、测试

工作流搭建完毕后，点击右上角“运行”按钮进行测试。我上传了一个TXT文件（内容为《少年歌行》小说节选），触发词设置为：你是少年歌行小说专家。

运行结果如下：

{"messages": [{"role": "system", "content": "你是少年歌行小说专家"}, {"role": "user", "content": "萧瑟的客栈为什么生意不好？"}, {"role": "assistant", "content": "因为那几个月雪落山庄附近的雪下得很大，路被封住了，所以很少有人来客栈歇脚。而且萧瑟自己也不愿意出钱修整客栈，导致房间漏风，客人们冻得受不了，宁愿挨风雪也上路了。"}]}
...
{"messages":[{"role":"system","content":"你是少年歌行小说专家"},{"role":"user","内容":"忘忧大师为什么要收养叶鼎之的儿子？"},{"role":"assistant","内容":"因为叶鼎之的儿子叶安世（即无心和尚）在六岁时就展现出了非凡的天资，并且叶鼎之与忘忧大师有深厚的交情。忘忧大师认为叶安世有潜力成为一个好的修行者，所以决定收养他并传授佛法。"}]}

生成的JSON格式数据可直接保存为.jsonl文件，后续用于微调模型。可能有人会问：为什么只生成了十几条？因为这次仅用于流程验证，数据量较小。实际使用时，将完整语料库输入，生成几百上千条完全不成问题。

四、总结

今天带领大家完整走了一遍用Dify搭建微调语料构造工作流的全过程——从理论到实操，从配置到测试，一气呵成。这再次验证了Dify这类低代码工具的威力：它将许多需要手写代码的工作转化为可视化节点的拖拽操作。对于想要自己微调模型但苦于技术门槛的开发者而言，这无疑是一个高效且实用的解决方案。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Dify案例分享：基于文本模型实现Fine-tune语料构造工作流要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/finetuning/2025010846150.html

ai 人工智能

上一篇：大语言模型零基础构建知识图谱（上篇）

下一篇：缓存增强生成或将替代RAG成为知识任务新宠

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。