大模型时代内容分析Agent解决方案与业务实践
针对电商内容生产痛点,提出基于大模型的内容分析Agent解决方案,涵盖内容特征体系自动生成、多模态细粒度标注与优质特征挖掘。通过因果推断与自动优化技术,实现低成本、高效率的智能化内容生产指导,已在手淘多个场景规模化落地。
在全球领先的电商平台淘宝,AIGC技术正深刻改变着内容创作与消费转化的方式。本文将深入解析淘宝AIGC内容生成技术的业务落地与实践进展,帮助您全面了解其核心价值。
核心内容:
- AIGC技术在淘宝的应用场景及其商业价值
- 淘宝AIGC内容生成技术的核心攻关方向
- 内容创作者如何借助AIGC技术提升内容吸引力与转化效果
作为一种全新的商品展示方式,内容几乎贯穿手淘用户浏览的全流程,例如信息流中的种草内容、搜索结果中的消费决策内容、商品详情页的种草内容等。通过低成本、高时效的AIGC内容生成能力,能够从供给端有效缓解内容生产成本高的问题,并以持续的低成本供给推动消费生态的构建。过去一年,通过在视频生成、图文联合生成、个性化文案、人设Agent等核心技术的持续攻关,AIGC内容生成已在手淘多个场景实现规模化落地,并展现出显著价值。
概述
在当今的电商环境中,内容化已成为淘宝的核心战略之一。无论是通过站内的图文和视频形式作为商品展示载体,促进用户消费转化,还是在站外投放广告内容吸引用户进入淘宝实现用户增长,内容的力量都不容忽视。
然而,许多内容创作者——包括KOL、商家、专业广告设计师以及AIGC内容生产方,在创作过程中常常面临一个难题:不确定什么样的内容能更有效地吸引用户,或成为爆款。他们可能偶尔创作出爆款内容,却难以理解其成功原因,也不清楚哪些要素能提升内容质量并吸引用户。面对所谓的“流量玄学”,他们难以系统性地复现爆款内容的生产。
以下是几个典型案例。
- 商品主图制作:淘宝商家在为商品制作主图时,希望了解何种图片能更好地吸引用户点击。哪些要素会影响用户的点击意愿?模特形象是否重要?应选择中国模特还是外国模特?商品拍摄的地点和背景是否关键?室内还是室外更合适?
- 站外广告设计:在站外投放广告时,广告设计师希望明确哪些内容更容易吸引用户点击广告并进入站内。是以奇幻美景(如冰川、海洋)作为开场,还是直接突出红包、满减、购物节等优惠权益,或者展示用户近期在淘宝站内感兴趣的商品画面?
- AIGC内容生产:在AIGC蓬勃发展的时代,我们掌握了更多内容生产技术与工具,如图像生成、视频生成、TTS生成等。如何更好地利用这些工具,针对不同用户在不同场景下的需求,生产出用户乐于消费的内容,已成为AIGC内容生产需要深入研究的重要课题。
要解决这些问题,通过科学的数据挖掘了解哪些要素影响用户的点击和消费意愿至关重要。此外,复杂性还在于不同投放渠道(如抖音、小红书)和不同用户画像(如年龄段、性别)对内容的消费偏好可能存在显著差异。这需要多维度、细粒度的拆解,以深入洞察这些差异。
传统上,创作者主要依赖个体层面的创作经验,通过反馈形成闭环来指导后续创作。但这种方法的问题在于个体经验反馈有限,难以系统化。在大模型时代,如果能够基于大规模的内容特征和用户消费反馈数据,对多模态素材进行细粒度的特征拆解与分析,并结合内容的用户消费数据进行科学分析,在内容分析与内容生产之间建立桥梁,为商家、设计师和AIGC等多类内容生产方的创作与生产提供系统、科学的指导,将具有重要的现实意义和应用价值。
方案介绍
针对上述背景和业务痛点,我们致力于将内容分析到指导内容生产的过程实现自动化、高效化与科学化,构建了一个基于细粒度内容分析的内容分析Agent。
[图片]
这个内容分析Agent包含以下模块:
- 内容特征体系生成:面向用户的内容生产目标(如为淘宝搜索域生产一批优质的AIGC视频),Agent自动拆解分析维度(如画面、配乐、文案等),构建完善、清晰的内容特征分析体系。
- 内容特征细粒度标注:结合内容的用户消费数据,提取需要分析的多模态内容,通过机器自动标注,实现准确、高效、细粒度地拆解多模态素材的多维度特征。
- 优质内容特征挖掘:利用因果推断等统计学方法,挖掘并归因优质内容的细粒度特征,指导内容生产者制定分渠道、分人群、分商品类目的内容生产策略。
内容特征体系生成
背景
在多数情况下,内容生产者可能只明确内容生产的目标(如希望生产一批爆款视频),但不知道如何拆解和实现这一目标,或无法构建一套完善、合理、清晰的标签体系。
方案设计
针对以上痛点,我们设计了一个内容特征分析体系生成Agent。该Agent能够基于用户的内容生产目标,自动生成维度完善、定义清晰、格式标准的内容细粒度分析体系,实现以下效果:
- 分析体系完善化:根据用户需求,自动生成多层级的标签树,涵盖内容的各个维度。
- 标签定义清晰化:为每个标签提供明确定义,确保含义易于理解。
- 体系格式标准化:生成的分析体系按照统一格式,方便后续解析和处理。
内容特征分析体系生成Agent包含以下模块:
( 1 ) Planning
利用大语言模型强大的任务拆解和规划能力,针对用户的多种输入,拆解任务并自动路由调用工具。
用户仅输入需求描述:
- 调用标签树生成功能,分步生成标签树。例如,用户想了解如何拆解分析爆款视频脚本的特征时,Agent会先从画面、音频、文字等角度进行分析,再逐步深入探索和拆解,每个维度分别生成对应的标签树,最后汇总形成完整的标签体系。
用户输入了初步的分析体系:
- 判断输入内容的模态(文本、图片)和形式(表格、脑图等),然后调用大语言模型或多模态模型,将用户输入的分析体系解析为统一的文本格式。
- 自动判定分析体系的维度完整性,判断其是否足以支持分析和生产目标。如不完整,则调用分析体系自动补全功能。具体实现方法是:依据分析需求,基于大语言模型的基础能力,结合业务样本输入,添加域外知识,自动补充相关标签,实现标签树的生成与扩展。例如,手淘外投业务输入了视频的分析体系和一批视频素材后,系统会自动调用MLLM生成视频的Dense Caption,自动总结视频内包含的内容要素,作为大语言模型域外知识的补充,结合大语言模型的世界知识,生成完整的视频分析标签体系。
- 自动定位抽象或模糊的标签,基于大模型的世界知识,结合用户输入的样本,自动总结并清晰化标签定义。
- 自动定位选项不完整的标签,对其进行补充,确保选项遵循MECE原则(Mutually Exclusive Collectively Exhaustive),即选项之间相互独立、完全穷尽,不重叠、不遗漏。
( 2 ) Action
Action模块内集成了一系列子能力,包括标签格式化解析、标签树自动生成与扩展、标签定义清晰化等。
[图片]
( 3 ) Memory
Memory模块存储历史生成的分析体系和一些域内知识。当面对新的内容生产需求时,Agent会先在Memory中检索,查看是否有可复用的分析标签体系结果。同时,对于某些定位到的模糊标签,会先在Memory中检索是否有相关定义,以增强标签体系的专业性和准确性,提高内容分析体系生成与构建的效率。
应用效果
针对图文内容生产的需求,Agent自动生成并构建了完善的标签体系,为后续的内容分析和生产提供了有力支持。
[图片]
内容特征细粒度标注
背景
传统的人工标注过程需要大量人力和时间,面对多模态素材和复杂的标签体系,人工标注还容易受主观因素影响,难以保证一致性和准确性。
随着多模态大模型的涌现与发展,机器自动标注的方法不断进步。然而,直接使用大模型进行标注仍面临一些挑战:
- 复杂标签体系的标注困难:面对庞大的标签树,想通过多模态大模型一次性实现标注,准确率难以保证;而逐个维度进行标注,成本又过高。
- 需要域外知识的标签标注困难:一些含义复杂的标签,直接通过zero-shot或few-shot方法难以达到预期效果。采用微调方式需要一定量的标注数据,训练和部署成本较高。
方案设计
针对层出不穷的业务场域新任务,我们搭建了一套多模态内容自动标注Agent,能自动拆解任务并调用模型和工具解决,在满足性能的条件下尽可能降低耗时和资源消耗。
[图片]
多模态内容自动标注Agent内集成不同模态、不同尺寸的模型和各类工具。其中,规划模块可针对复杂任务进行标签体系的自动拆解,并路由至对应类型的模型;执行模块通过Auto-Prompt能力推理优化,最大程度发挥模型能力,降低推理和部署成本;针对部分仅通过推理优化无法良好解决的复杂理解任务,我们还建立起了模型的自动训练和部署能力。此外,记忆模块会记录模型面向不同任务的能力与特性,整套系统随着执行任务不断增多,积累的任务-模型性能库不断丰富。在新任务来临时,可以通过最适配模型检索,进一步提升标注效率。
应用效果
面向手淘外投业务的图片素材,自动打标系统在30+个标签上的平均打标准确度达到90%+,累计标注百万量级的素材,降低人力标注成本80%+。
复杂标签树自动拆解与任务规划
利用大语言模型的复杂任务拆解与规划能力,将大规模、多维度的标签树自动拆解,构建形成思维树或思维图。实验证明,通过标签树的拆解和思维图的构建,在多模态细粒度理解任务上(约100个子任务),可实现以25%成本与60%耗时达到近90%GPT4o性能。
- 思维树:将复杂任务从上到下逐层拆解,形成树状结构,分块解决问题。
- 思维图:在树状结构基础上,考虑标签节点之间更复杂的依赖关系,形成网状结构,更全面地解决问题。
| baseline | 思维树 | 思维图 |
|---|---|---|
| 代表大语言模型解决复杂标签树的基本链路,从上而下,逐个链式推理 | 面向一些任务,可考虑拆解为树形结构分块解决 | 从树形结构衍生而来,标签节点之间存在更复杂的依赖关系,形成思维图。本图为例,从最中间的内容解析任务节点出发,绿色代表图之间的节点依赖关系,灰色代表树形结构。 |
Auto-Prompt
背景
面对一些含义复杂的标签,直接利用预训练的多模态大模型无法满足精度要求。人工调试提示词(prompt)需要多轮实验,耗时耗力。通过微调模型,又需要大量的标注数据和计算资源。
方案设计
基于强化学习技术,我们构建了一套Auto-Prompt技术框架,相关论文《Boosting Private Domain Understanding of Efficient MLLMs: A Tuning-free, Adaptive, Universal Prompt Optimization Framework》(IDEALPrompt)正在投稿ACL2025。
提出的Prompt Optimizer整体分为两个阶段。第一阶段类似“预训练”,通过高效的策略树搜索和探索利用,得到较为有效的初始prompt。之所以称之为“预训练”,是因为策略结果在不同任务与模型间具备一定的可迁移性;第二阶段类似“模型微调”,会结合具体的bad case进行反思和优化,生成一个面向具体任务较优的prompt。
[图片]
该方法面向多模态任务,支持用户输入待处理的任务定义和标签定义,依赖较少的标注样本,以白盒化training-free的方式高效搜索最优的prompt,发挥模型的最大性能,实现推理优化。
该方法的优势:
- 低样本需求:只需少量标注样本即可进行Prompt优化。
- 高效搜索:快速找到最优的Prompt,提高模型性能。
- 过程透明:白盒化操作,方便调试和理解优化过程。
- 可迁移性:搜索得到的prompt在不同模型、不同任务间具备一定的可迁移性。
应用效果
在手淘外投图片素材理解的7个任务实验中,以InternVL2-2B为基模,较zero-shot性能提升34.9pt,准确率持平SFT效果,且优于其他经典Auto-Prompt方法和InternVL2-8B zero-shot结果;以InternVL2-8B为基模,较zero-shot性能提升21.1pt。整套系统仅依赖约20条训练样本,且无需微调模型,能以轻量方式挖掘出基础模型处理私域任务的能力。
[图片]
模型自动训练与部署
背景
对于复杂任务,仅通过Auto-Prompt等推理优化手段可能无法满足精度要求,需要微调模型才能达到标准。此外,使用大模型取得理想效果后,也可以通过标注数据蒸馏小模型,进一步降低推理成本。
以往都是人工进行模型的训练和部署。为降低人力成本,我们构建起了一套模型自动训练与部署的pipeline,实现了链路的高度自动化。
方案设计
构建了一套自动训练与部署的pipeline:
- 数据准备:自动获取和处理训练数据,主要有两种渠道:一是从素材池中多路召回,二是利用生成模型通过Prompt泛化扩充数据。
- 模型训练:根据任务需求选择合适的预训练模型(图分类模型、语言模型、多模态模型),自动进行训练。
- 模型评估:自动评估模型性能,确保达到预期要求。
- 模型部署:训练完成并通过评估后进入模型库,服务无需重新发布,模型自动部署到推理环境中。
[图片]
该方案具备以下优势:
- 全流程自动化:提供模型的自动训练和部署能力,降低人力操作成本。
- 支持多模型类型:图分类模型、大语言模型、跨模态模型等。
- 高准确率,低成本:训练的小模型准确率可达90%以上,推理成本降低至原来的20%。
应用效果
完成了图分类、LLM和MLLM的自动训练部署能力,支持LoRA的快速训练与部署,小模型准确率可达90%+,产出专家小模型5个(服饰展示分类、人脸完整度、背景分类、标题颜色词提取等),推理成本降为20%左右,素材池累计打标1亿+。
优质内容特征挖掘
背景
内容生产的复杂性在于,不同人群、不同场域下的消费偏好可能存在较大差异。如何从海量的多模态标注素材和标签中挖掘有价值的信息,形成明确的创意指导,是需要解决的关键问题。
方案设计
在对多模态内容进行细粒度标注后,需要进一步挖掘和分析,拆解不同的人群、渠道、商品等维度,分析这些标签中的哪些要素出现或某几个要素组合出现时,会对内容消费效率产生关键影响。从而在内容分析与内容生产之间建立桥梁,通过内容分析为内容生产形成明确的创意指导,提升内容生产的效率和效果。
具体而言,内容分析指导内容生产过程,根据抽象程度不同,分为两个层次:
- 直接参考:挑选出面向某个商品、某个渠道下表现优异的优秀样本(Golden Sample),直接分析其内容特征,对生产形成强指导。
- 间接参考:通过大量数据分析,进行抽象层面的知识总结和挖掘,了解具有某些要素特征的内容可以取得更优的消费效率,在生产过程中提供知识层面的“白盒化”指导,提升整体内容生产质量的下限。整体分为以下两步:
- 人工构造“AB实验”:控制除最关注的消费指标外,其他特征均保持一致,通过分析内容特征的差异与消费指标的差异之间建立关联。例如,在优化信息流场景下的商品主图时,控制品牌、价格段、商品品类一致,找到点击率差距大的主图,分析优质素材与劣质素材的特征差异。
- 优质内容特征挖掘:利用关联分析、相关性分析、机器学习方法建模后的特征重要度分析(包括Shap Value、Permutation Importance等),分析各要素对内容效率的影响,识别关键影响因素。通过卡方检验等显著性检验方法,判断要素的不同取值是否对内容效率有显著影响。
注:此部分工作与数科老师合作完成。
应用效果
对手淘外部投放业务中的图片和视频素材进行了分析,并据此提出了优化建议。出于业务数据隐私的考虑,在此仅展示部分结论:
- 对于图片素材,推荐展示多种商品款式及直接展示优惠信息,能有效提高用户点击率与转化率;
- 对于视频素材,推荐采用吸引人的开场场景以及突出价格优势的开头文案,能有效增强用户吸引力;
目前图片的分析结论已应用于指导设计师制作内容,为外投素材的CTR带来了两位数的正向提升。视频的分析结论建议正被用于改进面向不同渠道的内容创作流程,旨在提升视频质量和广告效果,促进用户参与度。
总结与展望
针对内容创作者在生产优质内容过程中面临的挑战,我们提出了一套基于细粒度内容分析的内容分析Agent。通过自动生成内容特征体系、对多模态内容进行细粒度的自动标注,以及深入挖掘优质内容特征,该Agent在内容分析与内容生产之间建立了有效的桥梁。它帮助内容生产者明确哪些内容要素能够更好地吸引用户,提高点击和消费意愿,从而在创作时更有针对性,提升内容的吸引力和传播效果。
在内容特征分析体系生成方面,Agent能够根据内容生产目标,自动拆解分析维度,构建完整、清晰的标签体系,解决了创作者对内容特征认知不全面的问题。
在多模态内容自动标注方面,利用大模型的能力,实现了对大量内容的高效、准确、细粒度标注,降低了人工标注的成本和误差。
通过优质内容特征的挖掘,运用统计学和因果推断的方法,识别出影响内容效率的关键要素,为内容生产者提供了科学的数据支持。
实践证明,内容分析Agent在实际应用中取得了良好效果。以手淘外投业务用于用户增长的图片素材为例,自动标注系统在多个标签上的准确度超过90%,累计标注了百万级素材,降低了80%以上的人力标注成本。标注与分析结果用于指导设计师进行素材生产,使图片大盘CTR环比提升12%。此外,视频的标注分析结论也在指导设计师生产和AIGC生产落地过程中发挥作用。这些成果表明,内容分析Agent能够有效提升内容生产的效率和质量,为内容创作者提供有价值的支持。
未来,将继续优化内容分析Agent,在提高自动标注的精确度、减少人力介入以及增强对生产的指导方面深入推进。随着技术不断发展,有望进一步提升自动标注的性能,使多模态内容的细粒度标签更加丰富和精准,为更深入的内容分析奠定基础。
通过强化算法和数据分析,将更有效地挖掘影响内容效率的关键要素,为内容生产者提供更具价值的指导。也将持续完善从内容分析到生产指导的全流程,形成更高效、科学的闭环,帮助商家、设计师和AIGC内容生产者在不同场景下创作出更受用户欢迎的内容。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:大模型时代内容分析Agent解决方案与业务实践要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。
Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。
一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。
专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。
- 日榜
- 周榜
- 月榜
热点快看
