大模型技术在淘宝生鲜审核场景的应用实践
随着多模态大模型技术的不断演进,其应用边界正在被迅速拓宽,其中凭证审核场景成为了一块重要的试验田。在业务域内,大量凭证审核工作长期依赖人工,不仅人力成本高昂,效率提升也面临瓶颈。 困境 凭证审核的核心任务可以归结为三项:第一,确定商品品种;第二,判断商品是否存在质量问题(即缺陷识别);第三,核算出现
随着多模态大模型技术的不断演进,其应用边界正在被迅速拓宽,其中凭证审核场景成为了一块重要的试验田。在业务域内,大量凭证审核工作长期依赖人工,不仅人力成本高昂,效率提升也面临瓶颈。
困境
凭证审核的核心任务可以归结为三项:第一,确定商品品种;第二,判断商品是否存在质量问题(即缺陷识别);第三,核算出现问题的商品比例。这些任务与商品类目高度耦合,而生鲜类目繁多,质量问题的表现更是千差万别。传统算法工程想要啃下这块硬骨头,投入巨大,回报率却低得难以接受。
冲出困境
转机出现在GPT-4o等优秀多模态大模型的爆发式增长上。大量测试表明,这类模型在开放世界视觉理解、视觉描述、多模态知识及常识推理、场景文本理解、情感理解等方面表现抢眼。很自然地,把多模态大模型技术引入凭证审核,就成了一条值得探索的路径。
凭证审核本质上属于视觉问答(VQA)任务。结合Qwen官网的VQA测评数据以及我们自己的实测,初步判断这条路走得通。
实现方案
识别准确率是整个项目的命门。下面从品种识别、商品问题识别、问题比例识别这三个任务入手,具体说说提升准确率的方案。
提升大模型准确率的常规路径有三条,按投入成本由高到低排序:预训练、微调、prompt工程。通常而言,只要选用的基座模型足够强大,靠prompt工程就能解决大部分任务。我们在项目中分别尝试了prompt工程和微调两种方案。
1. prompt工程
在prompt工程方面,我们试过链式思维(CoT)、少样本学习(Few-Shot)等经典思路。经过资料查阅和实测,发现Few-Shot效果最为显著,在缺陷检测场景中尤其好用。
Few-Shot思路
大模型在海量文本上预训练后,具备了扎实的语言理解和生成能力。Few-Shot的精髓在于,通过提供少量任务相关的示例(通常直接写在输入提示里),引导模型理解任务要求和输出格式,往往能收获意想不到的效果。下图引自《The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)》。
| zero-shot | few-shot |
在本项目中,我们也沿用了Few-Shot的思路。关键在于确保样本质量——我们收集了各个类目高质量的品控验收标准图作为输入样本。
以核果-桃子类目-腐烂变质场景为例,prompt的设计大致如下:图1取自商品主图,图2是消费者上传的退款凭证。
| 图1 | 图2 | prompt |
| 根据图1,请你确定图2是否发生***等质量问题 |
类目prompt单独调优
不同生鲜类目的质量问题特征差异明显:西瓜的变质、葡萄的掉粒、柚子的失水……必须针对每个类目进行精细化的prompt调优。
| 西瓜变质 | 葡萄掉粒 | 藕腐烂 | 柚子失水 | 青菜不新鲜 |
各类目的特性问题
为了快速覆盖数百个叶子类目,我们设计了一套工程化的prompt调优方案,最终覆盖了发霉、腐烂、脏污、破损、掉粒等20多种场景的识别检测。方案包含四个环节:
- 知识对齐——为什么要做对齐?说白了,是模型向人类对齐。模型对prompt的理解可能与我们存在偏差。所以先让模型输出特征的描述,再以此为基础构造prompt。
- prompt构造——基于商品、凭证等信息,生成prompt。
- 版本准确率输出——由人工对模型的输出结果进行打标,获取各场景的准确率。
- 反馈修正——不断优化badcase,直到准确率达到预期。
类目准确率优化流程图
2. 微调
通过prompt工程,我们解决了缺陷识别问题,但还有一个难题无法绕开——比例识别。以生鲜爆品鸡蛋为例,无论是调用GPT还是qwen-vl,单靠prompt工程优化,准确率始终撞到天花板,无法达到线上使用标准。于是,我们开始尝试大模型微调方案。
数问题鸡蛋个数
整体流程
下图是整个微调与部署过程的示意图。接下来对每个环节展开说明。
微调&部署过程的示意图
1. base model的选用
综合考虑开源模型的能力、安全稳定性等因素,我们选用了qwen-vl作为基座模型。以下是其官方公布的参数信息和相关能力评测。
qwen-vl参数以及评测(图片取自qwen-vl官方公开数据)
2. 数据集准备
数据集的质量直接决定微调模型的表现。得益于历史数据的积累,我们省去了繁重的标注工作。基于历史数据,我们清洗出以下几类数据集:单图鸡蛋质量问题个数、多图鸡蛋质量问题个数(消费者可能上传多张退款凭证,需要判断是否为不同视角下的问题)。此外,还加入了品种识别的分类任务,确保品种识别环节有更稳定的表现。同时,混入了一些白图和截图数据,用以减少大模型的幻觉。
| 数据集类型 | 数据集名称 | 数据描述 |
| 自建 | 鸡蛋问题个数-单图 | 取存量历史数据,一次prompt一张凭证 |
| 自建 | 鸡蛋问题个数-多图 | 取存量历史数据,一次prompt多张凭证,解决多视角问题 |
| 自建 | 生鲜类目数据 | 分类任务使用 |
| 自建 | 非生鲜实物图数据 | 主要为网图、白图、截图等,缓解幻觉,训练大模型“说不”的能力 |
3. 训练与部署过程
微调和部署流程参考了前面的示意图。整个过程涉及两个平台:星云(阿里微调训练平台)和whale(阿里大模型部署一体化解决方案)。依靠这两个平台,我们完成了整条链路的训练与开发。
微调采用边训练边评估(train & eval)的方式,数据比例9:1,使用A100卡训练了14小时。eval_loss持续收敛,在epoch=2.2时获得了最小的eval_loss。具体的超参调整细节不再展开。部署微调后的模型时,通过whale平台提供的SDK即可实现访问,接口格式遵循OpenAI协议。
4. 端到端测评
为了验证模型表现和全链路调用效果,我们在Ja va工程中发起调用,解析返回结果并与人工标注结果做了对比。结果如下:微调之后,问题个数的识别准确率相比GPT-4提升了11个百分点,分类任务准确率提升了2个百分点。
| 模型 | 问题鸡蛋任务准确率 | 分类任务准确率 |
| GPT4 | 与人工结果误差1个以内,准确率为79% | 90% |
| qwen-vl-sft | 与人工结果误差1个以内,准确率约90%,标准差也有所收敛 | 92% |
5. 压测情况
为了摸清微调后模型服务的QPS水平,我们进行了压测。在双卡L20、单张图片、输入输出token量与微调时保持一致的情况下,模型能达到大约10 QPS的水平,完全满足业务场景要求。
展望
大模型技术的蓬勃发展,让我们站在了前所未有的变革前沿。这股技术浪潮不仅重新定义了信息处理与分析的方式,也在深刻地渗透着各行各业。作为技术人员,既要保持对前沿科技的热情,持续学习最新理论和技术工具,也要敢于尝试创新的方法。唯有如此,才能在这场由大模型引领的技术革命中抓住机遇,创造出更多具有突破性意义的产品和服务。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:大模型技术在淘宝生鲜审核场景的应用实践要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点一切商业机会都源自行业趋势,简而言之,真实的市场需求在哪里,机遇就在哪里。智能合同赛道之所以能够迅速崛起,根本原因正是源于市场的迫切需求。 如今,生成式AI已不再是新鲜事物,它在各个行业的落地速度正在显著加快。法律行业,正是AI应用落地的核心领域之一。自2023年起,众多法律科技公司纷纷向AI方向转
11月24日,知名科技播客《No Priors》请到了Cohere的联合创始人兼CEO Aiden Gomez,聊了聊企业AI应用的真实现状和未来走向。从坚持自研模型、Scaling Laws增速放缓,到模型降价是不是可持续,这位一线掌舵人给出了不少值得琢磨的判断。下面聊几个关键看法。 AI战略金字
模型安全对齐技术正从被动防御转向主动构建,2026年开发者需重点关注多模态安全、价值观对齐与可解释性、动态对抗与持续学习、以及安全与性能的协同优化等能力变化。这些趋势要求开发者掌握更全面的安全评估框架和工程化实践,以构建更可靠、可控的人工智能系统。
小样本微调技术正从实验室走向产业应用,其核心价值在于以少量数据高效定制大模型。技术驱动型团队、垂直领域专家及对成本与敏捷性有高要求的企业将率先受益。该技术能快速响应特定需求,降低数据与算力门槛,但需关注任务定义、数据质量及过拟合风险,其成功应用关键在于与业务场景的深度结合。
- 日榜
- 周榜
- 月榜
热点快看
