数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

首个大规模数据集开源提升大模型工作流编排能力

AI热点日报时间：2026-07-03

热点解读

Agent工作流编排能力最近成了热点，但大模型在这方面的表现一直差强人意——处理简单线性流程还行，一旦涉及多步骤、分支、循环的复杂工作流，现有模型就捉襟见肘了。好在，清华大学THUNLP团队联合人民大学、曼彻斯特大学及武汉大学团队，开源了一套以数据为中心的解决方案：WorkflowLLM框架，以及首

Agent工作流编排能力最近成了热点，但大模型在这方面的表现一直差强人意——处理简单线性流程还行，一旦涉及多步骤、分支、循环的复杂工作流，现有模型就捉襟见肘了。好在，清华大学THUNLP团队联合人民大学、曼彻斯特大学及武汉大学团队，开源了一套以数据为中心的解决方案：WorkflowLLM框架，以及首个专为提升工作流编排能力设计的大规模数据集WorkflowBench。基于这个数据集微调的WorkflowLlama（8B参数），在各项评测中始终优于GPT-4o等强基线模型。

填补空白！首个提升大模型工作流编排能力的大规模数据集开源

Manus的爆火让Agent成为焦点，而工作流正是智能体的核心技术之一。从理解任务、拆解步骤到调用工具并执行，每一步都离不开强大的编排能力。然而，现有大模型大多只擅长处理节点少、结构简单的线性工作流，面对真实场景中的复杂需求，显得力不从心。

WorkflowLLM框架的推出，正是为了解决这一痛点。下面来看它的设计思路。

WorkflowLLM框架概述

图1 WorkflowLLM框架概览

WorkflowLLM主要包含三个阶段：

1. 数据收集：先从Apple Shortcuts、RoutineHub等真实工作流平台爬取高质量数据，经过筛选和转换，将快捷指令源代码转录为Python风格代码，便于LLM处理。同时利用ChatGPT生成注释、任务计划和任务查询，进一步丰富数据，增强模型的学习效果。（详细内容见下文“WorkflowBench数据构建”）

2. 查询扩展：使用ChatGPT基于已有工作流生成更多的任务查询，增加工作流的多样性和复杂性。这一步通过采样具有代表性逻辑结构的API和工作流示例，引导ChatGPT生成类似的新工作流。

3. 工作流生成：基于收集到的真实世界数据训练一个工作流标注模型，然后用该模型为扩展后的任务查询生成工作流。生成后经过严格的质量确认，确保数据集完整性。最终将确认合格的合成样本与原始收集样本合并，形成完整的WorkflowBench数据集。

WorkflowBench数据构建

图2 WorkflowBench数据说明，包括任务查询、API文档、任务计划和带注释的工作流代码

WorkflowBench的数据构建同样分为三个阶段。首先，从真实世界工作流数据（Apple Shortcuts、RoutineHub等）收集样本，转录为Python代码，并利用GPT-4o-mini生成层次化思维注释。其次，通过GPT-4o-mini生成多样化任务查询，丰富工作流的复杂度和覆盖面。最后，借助标注模型为扩展查询生成工作流，并通过严格的质量确认环节，确保数据质量。

WorkflowBench数据集包含106,763个样本，涵盖83个应用程序中的1,503个API。与现有数据集相比，它不仅包含更多节点的工作流实例，还具备更复杂的逻辑结构——尤其支持多步骤、分支、循环等高级功能。作为首个专注于提升工作流编排能力的数据集，WorkflowBench为LLM提供了丰富且复杂多样的训练数据，让模型能更好地应对现实自动化需求。

图3 工作流类别、包含的应用和操作数量的分布比较

从图示可以看出，数据集覆盖了iOS内置应用、ChatGPT等83个应用，涉及Utility、Games、Music等28个领域，领域分布相当广泛。

实验结果

基于WorkflowBench数据集，我们对Llama-3.1-8B模型进行了微调，得到WorkflowLlama。实验结果显示，WorkflowLlama能有效编排复杂工作流，并在未见过的API和指令上展现出卓越的泛化能力。更难得的是，它在超出分布的任务规划数据集T-Eval上表现出了强大的0-shot泛化能力，取得了77.5%的F1计划分数。

评估采用CodeBLEU指标来度量生成工作流的语法和语义质量，包括BLEU、加权N-gram、AST匹配和数据流匹配四个方面；同时用ChatGPT作为自动评估器，判断生成工作流能否完成用户查询任务。在CodeBLEU和Pass Rate两项指标上，WorkflowLlama均取得SOTA成绩，远超包括GPT-4o和Llama-3.1-70B在内的更大参数模型。

图4 在未见指令(ID)和未见API(OOD)场景下，各种模型的性能比较(%)

值得注意的是，随着工作流复杂性的提升，WorkflowLlama的优势愈发明显。实验根据动作总数、分支和循环数量以及参考代码的嵌套深度对CodeBLEU性能进行了细分。结果如图5所示：虽然所有模型在复杂度上升时性能都会下降，但在各个复杂度水平上，WorkflowLlama的表现都显著优于其他模型。

图5 基于动作数量、分支和循环数量以及参考代码嵌套深度的性能比较

此外，WorkflowLlama的泛化能力也在OOD基准测试T-Eval上得到验证。T-Eval广泛用于评估LLM利用API进行多步决策的能力。尽管WorkflowLlama在不同领域和任务上使用不同的API进行训练，但在T-Eval上的表现依然亮眼，其OOD泛化性能显著优于未经微调的Llama3.1-8B，以及更大的开源模型如Llama-2-70B和Qwen-72B。

图6 在T-Eval的PLAN任务上F1分数的比较

可以说，WorkflowBench的推出为复杂工作流编排领域补上了一块关键拼图。对于想要让大模型在真实自动化场景中“干点真活”的研究者和开发者来说，这无疑是一个值得关注的开源资源。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：首个大规模数据集开源提升大模型工作流编排能力要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2025031142163.html

ai 人工智能

上一篇：机器学习算法实用技巧分享

下一篇：商汤科技中放年会首发肝脏心脏AI辅助诊疗方案

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周AI驱动的员工英语口语教练Lucida 02 / 本周Screenshot2Code：截图转代码工具 03 / 本周SpeakStruct 语音转结构化数据可自定义模板 04 / 本周AI驱动语音治疗应用 IzzyAI 05 / 本周Grammar AI人工智能雅思备考工具

01 / 本月AI驱动的员工英语口语教练Lucida 02 / 本月Screenshot2Code：截图转代码工具 03 / 本月SpeakStruct 语音转结构化数据可自定义模板 04 / 本月AI驱动语音治疗应用 IzzyAI 05 / 本月Grammar AI人工智能雅思备考工具

热点快看

07-03 20:42AI驱动的员工英语口语教练Lucida 07-03 20:42Screenshot2Code：截图转代码工具 07-03 20:42SpeakStruct 语音转结构化数据可自定义模板 07-03 20:41AI驱动语音治疗应用 IzzyAI 07-03 20:41Grammar AI人工智能雅思备考工具

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别