面包屑图标 当前位置: 首页
AI资讯
热点详情

Dify案例分享:基于文本模型实现Fine-tune语料构造工作流

AI热点日报
AI热点日报时间:2026-06-29
热点解读

在AI应用落地领域深耕多年后,我发现AI模型的微调与训练早已不是什么新鲜事。尤其在大模型时代,这两项技术的应用范围不断扩展,其重要性也日益凸显。无论你是技术新手还是资深工程师,掌握微调方法都能显著提升模型在特定任务上的表现。 一、什么是AI模型微调? 简单来说,微调(Fine-tuning)就像你雇

在AI应用落地领域深耕多年后,我发现AI模型的微调与训练早已不是什么新鲜事。尤其在大模型时代,这两项技术的应用范围不断扩展,其重要性也日益凸显。无论你是技术新手还是资深工程师,掌握微调方法都能显著提升模型在特定任务上的表现。

一、什么是AI模型微调?

简单来说,微调(Fine-tuning)就像你雇佣了一位名校毕业的博士生(预训练模型)。他知识渊博,通晓天文地理,但当你让他“帮我分析这份财务报表”时,他可能需要先熟悉具体语境。微调正是让他在你的专属数据上“进修”,从通才转变为你的专属“金融分析师”。

其核心是迁移学习——将预训练模型在通用数据上学到的知识,迁移到你的特定场景中,为我所用。

具体操作通常分为以下几步:

  1. 选择基座模型: 从流行的预训练模型中挑选一个,比如BERT、GPT、T5等,根据任务需求和算力资源决定。
  2. 准备专属数据集: 收集与任务高度相关的标注数据,确保数据质量、代表性和标注一致性。
  3. 调整模型结构(可选): 根据任务特点,可能需要增减网络层、更换激活函数或调整输出头。
  4. 设定训练超参数: 学习率、批量大小、训练轮数等直接影响最终效果,需反复调试。
  5. 开始训练: 将数据送入模型,迭代更新权重,同时监控验证集指标,防止过拟合。
  6. 评估与部署: 在测试集上验证,达到预期后即可上线使用。

上面讲完了理论,下面进入实操环节。微调与训练模型,数据集的质量至关重要。过去要么依赖人工标注,要么编写复杂脚本,门槛较高。有没有办法快速、低成本地构造微调语料?当然有!今天就带大家用Dify搭建一个微调语料构造工作流,像搭积木一样轻松搞定。直接上干货。

二、微调(Fine-tuning)语料构造工作流

先看最终成品,工作流结构如下:

整个流程拆分为5个环节:开始、文档提取器、代码执行、LLM大语言模型、结束。下面逐一拆解。

开始

打开Dify,创建空白工作流,输入应用名称。进入画布后,在“开始”节点设置两个输入参数:

  • attachments:用于用户上传文件。
  • 触发词:对应训练时的System Prompt。

按照上图配置第一个参数,然后设置第二个参数“触发词”。至此,开始节点的两个输出参数完成。

文档提取器

点击开始节点右侧的加号,选择“文档提取器”。该节点输入变量直接引用开始节点的attachments数组参数即可。

代码执行

在文档提取器右侧加号中选择“代码执行”节点并连接。代码执行节点需设置输入参数:

  • 参数名:articleSections
  • 参数值:文档提取器的text(数组)

执行代码如下:

def main(articleSections: list) -> dict:
    try:
        # 将列表项合并为字符串
        combined_text = "n".join(articleSections)
        
        # 截取前80000个字符
        truncated_text = combined_text[:80000]
        
        return {
            "result": truncated_text
        }
    except Exception as e:
        # 错误处理
        return {
            "result": ""
        }

输出变量名result,类型选string

这里简单说明:代码执行节点负责将多个文档的文本合并。由于Dify沙箱有长度限制,这里截取前8万字符。若需处理更长文本,可自行编写接口服务实现合并与截取。

LLM

在代码执行节点后接入LLM节点,它是整个工作流的核心——将接收到的文本通过提示词转换为微调数据集格式。

先看一条典型的微调数据样例:

{"messages": [{"role": "system", "content": "你是当代大儒"}, {"role": "user", "content": "应该怎么学习?"}, {"role": "assistant", "content": "贤贤易色;事父母,能竭其力;事君,能致其身;与朋友交,言而有信。虽曰未学,吾必谓之学矣。"}]}

实际微调数据集包含多条此类数据,通常以.jsonl格式保存。注意:示例格式可能与常见规范略有差异,但符合主流数据集规范即可。数据集构建涉及较多细节,这里不展开。

接下来配置LLM节点:

1.模型选择: 调用SiliconCloud平台上的Qwen/Qwen2.5-72B-Instruct-128K模型,性能强劲且价格实惠。

2.系统提示词: 明确LLM的角色和输出要求。

3.用户提示词: 将文本内容与触发词拼接作为输入。

系统提示词如下:

【角色】
你是一位 LLM 大语言模型科学家,参考用户提供的内容,帮助用户构造符合规范的 Fine-tune(微调)数据

【任务】
- 对于给定的「内容」,你每次列出 10 个通俗「问题」;
- 针对每个「问题」,引用「内容」原文及对内容的合理解释和演绎,做出「解答」;
- 并将「问题」「解答」整理为规范的 JSONL 格式

【要求】
1. 问题 **不要** 直接引用「内容」,应该贴近当代现实生活;
2. 问题应该是通俗白话,避免“假、大、空”;
3. 答案应忠于原文,对于原文的解释不能脱离原文的主旨、思想;

【输出规范】
* 输出规范的 JSONL,每行一条数据
* 每条数据应包含一个 message 数组,每个数组都应该包含 role 分别为 system、user 和 assistant 的三条记录
* 其中 role 为 system 的数据,作为训练中的 system prompt 格外重要,其 content 使用用户指定的「触发词」
* role 为 user 的数据对应列出的「问题」
* role 为 assistant 的数据则对应针对「问题」的「解答」
* 示例如下:
```
{"messages": [{"role": "system", "content": "你是当代大儒"}, {"role": "user", "content": "应该怎么学习?"}, {"role": "assistant", "content": "贤贤易色;事父母,能竭其力;事君,能致其身;与朋友交,言而有信。虽曰未学,吾必谓之学矣。"}]}
```

用户提示词部分,只需将代码执行节点输出的文本与触发词拼接传入即可。

结束

最后,在LLM节点右侧添加“结束”节点,输入参数直接引用LLM的text输出。至此,整个工作流搭建完成。

三、测试

工作流搭建完毕后,点击右上角“运行”按钮进行测试。我上传了一个TXT文件(内容为《少年歌行》小说节选),触发词设置为:你是少年歌行小说专家

运行结果如下:

{"messages": [{"role": "system", "content": "你是少年歌行小说专家"}, {"role": "user", "content": "萧瑟的客栈为什么生意不好?"}, {"role": "assistant", "content": "因为那几个月雪落山庄附近的雪下得很大,路被封住了,所以很少有人来客栈歇脚。而且萧瑟自己也不愿意出钱修整客栈,导致房间漏风,客人们冻得受不了,宁愿挨风雪也上路了。"}]}
...
{"messages":[{"role":"system","content":"你是少年歌行小说专家"},{"role":"user","内容":"忘忧大师为什么要收养叶鼎之的儿子?"},{"role":"assistant","内容":"因为叶鼎之的儿子叶安世(即无心和尚)在六岁时就展现出了非凡的天资,并且叶鼎之与忘忧大师有深厚的交情。忘忧大师认为叶安世有潜力成为一个好的修行者,所以决定收养他并传授佛法。"}]}

生成的JSON格式数据可直接保存为.jsonl文件,后续用于微调模型。可能有人会问:为什么只生成了十几条?因为这次仅用于流程验证,数据量较小。实际使用时,将完整语料库输入,生成几百上千条完全不成问题。

四、总结

今天带领大家完整走了一遍用Dify搭建微调语料构造工作流的全过程——从理论到实操,从配置到测试,一气呵成。这再次验证了Dify这类低代码工具的威力:它将许多需要手写代码的工作转化为可视化节点的拖拽操作。对于想要自己微调模型但苦于技术门槛的开发者而言,这无疑是一个高效且实用的解决方案。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Dify案例分享:基于文本模型实现Fine-tune语料构造工作流要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/finetuning/2025010846150.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-02 14:27
Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析

GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。

AI热点2026-07-02 14:27
一款实用的YouTube视频高亮标注Chrome浏览器扩展插件

Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。

AI热点2026-07-02 14:27
WhisperNotes智能音频笔记应用

一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。

AI热点2026-07-02 14:27
Sharpen AI:Chrome扩展秒转Google Meet为笔记邮件任务

专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。

延伸阅读