自定义插件生成符合长度要求的图文并茂文章
基于阿里云百炼平台,构建由大模型和自定义插件组成的串行工作流。用户仅输入标题,系统自动完成文章撰写、图像提示词提取、插件生图及图文整合,最终输出一篇配图的小红风风格文章。
直接看结论:借助阿里云百炼平台,我们完全可以实现让大模型自主生成一篇图文并茂的小红书风格文章。您只需输入一个标题,剩下的工作——文章撰写、配图生成、内容整合——全部由工作流自动完成。

本文是《5步教你创建大模型自定义插件》的延续。既然我们已经拥有了一个具备生图能力的自定义插件,今天就来用它跑通一条完整的“文+图”自动化生成流程。如果您对自定义插件还不熟悉,建议先回顾前文内容。
先理清实现思路
我们希望达成的效果是:用户仅输入一个标题,系统就能自动产出一篇小红书风格的文章,并配上恰当的图片。整个流程可以拆解为四个关键步骤:
- 大模型写文章:根据用户输入的标题,生成一篇符合小红书调性的文字内容。
- 提取关键信息,生成图像提示词:从刚生成的文章中,抽取出可用于生成图片的核心元素,并将其转换为文生图插件能够理解的提示词。
- 调用自定义插件生成图片:在工作流中引入之前定义好的生图插件,根据提示词产出图片。
- 整合文本与图像:将文章和生成的图片拼接在一起,输出给用户。
先看一眼最终的成果:这是一个典型的串行工作流——开始 → 大模型(写文章) → 大模型(生成提示词) → 脚本转换 → 自定义插件(生图) → 脚本转换(等待) → 自定义插件(查结果) → 脚本转换(拼图) → 结束。节点看起来比较多,但逻辑非常清晰。当然,并非所有自定义插件都需要经过这么多脚本转换节点——这完全取决于您使用的插件类型。我们示例中的生图插件是两阶段(提交任务 + 查询结果)的,所以中间多了几个转换环节。
开始搭建工作流
登录阿里云,搜索“百炼”或直接访问 https://bailian.console.aliyun.com/#/home,进入“我的应用”,然后创建“对话型工作流”。
1. 拖入一个大模型节点:生成小红书风格文章
一个小技巧:每拖入一个新节点,先把它和前面的节点连线,再开始配置。
大模型节点配置如下:
- 模式:单次处理模式
- 模型:通义千问-Max-Latest
- 参数:最长回复长度可以适当调高(默认1024),开启搜索。其余保持默认。
- System Prompt:可以直接使用下面的示例提示词,也可以自己优化。
- User Prompt:直接引用输入的 query。
# 角色 你是一位小红书文章创作专家,擅长根据用户输入的内容生成高质量的小红书文章。 ## 技能 ### 技能1:内容理解与提炼 - 深入理解用户提供的内容,提炼出核心信息和关键点。 - 通过分析用户需求,确定文章的主题和方向。 ### 技能2:撰写吸引人的标题 - 创作简洁、有吸引力且符合小红书风格的标题。 - 确保标题能够激发读者的兴趣,提高点击率。 ### 技能3:内容创作与编辑 - 根据用户提供的内容,撰写详细且有趣的文章正文。 - 使用小红书流行语境和热点话题,增加文章的共鸣度和传播性。 - 保持文章内容的连贯性和可读性,避免冗长和复杂。 ### 技能4:SEO优化 - 了解并运用小红书平台的搜索排名机制,合理嵌入关键词以提高文章的可发现性。 - 选择合适的关键词,帮助文章在搜索结果中获得更高的排名。 ### 抗能5:图片和排版建议 - 提供关于图片选择和排版的建议,确保文章视觉效果良好。 - 建议使用高质量的图片和适当的排版,提升文章的整体质量。 ## 限制 - 保持文章内容的真实性和实用性,避免出现虚假或误导用户的信息。 - 注意敏感信息的筛选和防范,并保持文案的健康正向导向。 - 文章长度应适中,通常不超过800字。 - 避免过度堆砌关键词,保持文章的自然流畅性。 - 所有内容必须符合小红书社区规范和政策。
如果一时不知道怎么写好提示词,可以先用平台的“Prompt自动优化”功能快速生成一个基础版本。
2. 再拖入一个大模型节点:根据文章内容生成图像提示词
这一步的核心是让大模型从刚刚写好的文章里提取出视觉描述,将其转化为文生图插件需要的正向和反向提示词。
配置如下:
- 模型:通义千问-max 或 latest
- 模型设置:默认即可
- System Prompt:使用下方提示词
- User Prompt:引用上一步大模型生成的文章内容
## 角色你是一位专业的文章创意插图设计师,擅长根据文章内容生成高质量的图片提示词,包括正向提示词和负向提示词。## 任务要求### 任务要求1:图片风格适用于营销和宣传### 任务要求2:需要文章内容设计一套适合其风格与用途的图片生成提示词。具体来说1. 正向提示词应明确描述出希望在最终图像中看到的所有关键元素、色彩搭配以及整体氛围。2. 负向提示词则需指出不希望出现在图像中的任何元素或风格,以避免不符合预期的设计出现。## 输出示例参照以下示例的格式输出{"prompt":"正向提示词","negative_prompt":"反向提示词"}## 限制- 生成的插图提示词必须与用户提供的内容紧密相关。- 提示词应尽量详细,但避免过于冗长,保持简洁明了。- 如果用户提供的查询不明确,需要通过提问来获取更多信息,而不是猜测用户的需求。- 提示词应包括场景、角色、色彩、风格等关键元素,以确保插图师能够准确理解并创作。- 关键词使用逗号分隔,分别生成两种提示词,- 正向提示词:描述画面的提示词信息,必须包含用户输入内容的核心内容的提示词,长度不超过500个字符,- 反向提示词:画面中不想出现的内容描述词信息,长度不超过500个字符。
3. 新增脚本节点:处理提示词格式
大模型输出的JSON格式提示词,还不能直接喂给文生图插件,需要用一个脚本节点把它转换成插件所需的输入结构。
配置详情:
- 输入:
result→ 引用 → 上游大模型节点的result - 输入参数:保留
input(Object) 和parameters(Object),其余删掉 - 代码(Python):
def main():
import json
json_obj = json.loads(params["result"])
prompt = json_obj.get("prompt", "")
negative_prompt = json_obj.get("negative_prompt", "")
ret = {
"result": {
"input": {
"prompt": prompt,
"negative_prompt": negative_prompt+",模糊扭曲的中文、英文"
},
"parameters" :{
"size": "1024*1024",
"n": 4
}
},
}
return ret4. 拖入自定义插件节点:选择生图工具
如果您按照上一篇文章的步骤创建了自定义插件,插件里应该包含两个工具。这里我们选择负责生图的那个。
配置如下:
- model → 输入 →
wanx2.1-t2i-turbo - input → 引用 → 选择上游脚本节点中
result下的input变量 - parameters → 引用 → 选择上游脚本节点中
result下的parameters变量
5. 再放一个脚本节点:等待生图任务完成
这里设置一个 20 秒的等待时间,超时则视为生成失败。
- 输入:清空
- 输出:保留
result即可 - 代码:
def main():
import time
time.sleep(20)
ret = {
"result": {}
}
return ret6. 再一次调用自定义插件:查询生图结果
选择文生图插件中的另一个工具——查询任务结果的接口。
配置:输入引用上一步任务提交后返回的 task_id。
7. 最后一个脚本转换节点:拼接图片到 MarkDown
插件返回的图片通常是一个 URL 数组,无法直接在 MarkDown 里显示,需要处理成可渲染的格式。
配置:
- 输入:
urlList→ 引用 → 上游查询结果插件中的result → url - 输出:
retString→ String - 代码:
def main():url_list = params["urlList"]ret_string = ""for url_data in url_list:if url_data is not None:ret_string += f"n"ret = {"result": {"retString": ret_string}}return ret
8. 结束节点:整合图文输出
到这里,一个基础的图文生成工作流就搭建完成了。
测试一下
输入任意关键词或文章标题,稍等片刻,文章和配图就会自动生成。
延伸思考:如何实现图文混排?
上面的流程中,所有图片只能统一展示在文章末尾,效果略显单调。如果我们想要“一段文字配一张图”的混排效果呢?这里提供一个思路。
关键点在于:在生成文章的时候,就要求大模型将内容按段落拆分。然后为每个段落分别生成对应的图像提示词,再逐个生成图片,最后按段落顺序拼接。
限于篇幅,这里只列出核心改动步骤:
- 复制现有项目,在这个基础上扩展。
- 完善文章生成大模型的提示词:让生成的内容更长更丰富,方便后续分段。
- 新增一个专门负责段落拆分的大模型节点:把长文章拆成标题 + 多个段落,输出为 JSON。
- 通过脚本进行 JSON 格式转换,把段落数据拆成多个独立变量。
- 为每个段落的提示词生成分别配置大模型,并输出各自的正向、反向提示词。
- 再用脚本进行二次格式化,为每个段落生成独立的插件输入参数。
- 将原来的文生图逻辑复制多份,与上面拆分出的 JSON 参数一一对应。
- 在结束节点把所有段落和对应的图片拼接起来,输出完整的图文混排内容。
整个流程确实更复杂,但效果也更具可读性。如果您对自动化内容生成有更高要求,不妨按这个思路深入尝试一下。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:自定义插件生成符合长度要求的图文并茂文章要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点OmniParser是微软AI驱动的SaaS工具,基于YOLOv8和BLIP-2,将UI截图与漫画页面解析为结构化数据,支持UI元素检测、漫画面板分析、对话框及人脸识别,适用于自动化测试、漫画翻译等场景。
通义灵码是贯穿开发全流程的智能编码助手,具备代码智能生成、研发智能问答、多编程语言及编辑器支持、代码安全隐私保障四大核心能力,适用于学生、新手及企业开发者等多类人群,提升编码效率。
基于人工智能的自动化道路巡逻和资产数据收集方案,通过车载相机自动采集路面及周边资产数据,识别裂缝、坑槽等病害并建立数字化台账,同时自动删除隐私图像,实现从被动响应向主动预防的转变,降低巡检成本。
阿里旗下通义智文是一款智能阅读工具,支持网页、论文、图书和自由阅读四种场景,帮助用户快速提取核心观点,节省阅读时间,适合学生、研究人员及职场人士高效处理大量文本。
- 日榜
- 周榜
- 月榜
热点快看
