阿丘科技李嘉悦:AI检测大模型与小模型协同进化的范式变革
3月28日,VisionChina2025(上海)机器视觉展在上海新国际博览中心圆满落幕。展会期间,阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会上,围绕“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”这一主题,分享了行业观察与技术实践。
工业AI视觉的发展,大致可以划分为几个阶段。2019年常被视为“元年”,以CNN为代表的小模型技术开始在一些先行客户中落地。此后数年,AI视觉技术逐步跨越鸿沟,从头部客户渗透至更广泛的腰部市场,甚至在部分细分领域已成为标配。到了2025年,一个基本共识已经形成:市场普遍认可了AI在工业质检领域的实用性与落地能力。
然而,认知的普及并未直接带来应用规模的爆发式增长。过去几年,AI检测市场的增长曲线更接近线性,而非指数。这背后,小模型技术路线固有的几大挑战始终困扰着行业:样本收集周期长、模型迭代成本高,以及最关键的——模型泛化能力不足。
具体来看,工业缺陷样本天然稀缺,收集耗时费力;模型调优过程专业门槛高,非专业工程师常陷入模型“不收敛”的困境,拉长了落地周期。而泛化能力差,意味着模型面对产线上未曾见过的缺陷变体时,往往表现不佳,这又反过来加剧了对海量样本的依赖。可以说,这些痛点直接制约了AI检测规模化应用的步伐。
为了破局,行业一直在探索。去年,一个巨大的技术变量出现了:通用大模型迎来爆发。从ChatGPT到豆包、Kimi,再到年初引发热议的DeepSeek和Manus智能体,通用AI的能力以惊人的速度进化,其智能水平在某些方面已超越普通人。虽然这些通用大模型并不直接解决工业检测问题,但它们标志着一个拐点的到来——AI技术本身已具备引发范式变革的潜力。
那么,大模型技术究竟将如何影响工业检测?目前业内存在两种典型看法。一种观点相对保守,认为大模型更像是“聊天机器人”,擅长处理文书类工作,但难以满足工业场景对精确性、稳定性的严苛要求,与核心检测业务关联不大。另一种观点则颇为激进,认为大模型能力强大,足以直接接管工厂质检,一步到位实现全自动化。
而阿丘科技基于长期的跟踪与实践,提出了第三条路径:大模型确实将深刻改变AI检测的范式,但这种改变并非简单的“替代”,而是走向“协同”。大模型将与现有小模型技术融合,共同进化。
一、概念厘清:大模型、小模型与智能体
在深入探讨协同之前,有必要先厘清几个核心概念。
小模型,即我们熟悉的传统深度学习网络(如CNN),参数量通常在百万级别。它的特点是“专精”:针对特定任务(如识别某种缺陷)进行训练,在数据质量高、场景固定的条件下,可以达到极高的准确率和速度。但其局限性也很明显:对数据质量和标注一致性极为敏感,知识模态单一(通常只处理图像),泛化能力弱。一个训练来识别车牌的小模型,无法用来检查产品划痕。
大模型则采用了Transformer等架构,通过在海量多模态数据(文本、图像、音频等)上进行预训练,参数量可达百亿甚至千亿级。其优势在于强大的泛化与理解能力:能够处理带噪声的数据,具备多模态交互能力(如理解“图像中左上角的黑色区域是什么”这类指令),并能在少量样本的引导下快速适应新任务。这背后是两阶段训练过程的支撑:先通过海量互联网数据进行通用知识“预训练”,再通过专业数据“微调”来提升特定领域的表现。
至于智能体,它并非一个独立的模型类别,而是大模型的一种高级应用形态。可以将其理解为能够自主规划、调用工具、执行一系列动作以完成目标的“虚拟助手”,其核心是让大模型的能力能够连贯、自动化地作用于实际工作流。
当我们将大模型技术引入企业级应用时,会发现它本身也存在一个分层体系。最上层是通用大模型,能力广泛但专业性不足;往下是聚焦于特定行业的行业大模型(如医疗、法律);再往下是针对具体场景深度优化的场景大模型(如磁材缺陷检测);最底层则是我们目前最熟悉的、极度专精的场景小模型。
选择的关键在于匹配。企业需要根据自身问题的复杂度、数据积累情况、对精度与速度的要求,来选择合适的模型层级,避免“杀鸡用牛刀”的资源浪费,或“小马拉大车”的能力不足。
二、工业视觉的模型选择与协同逻辑
回到工业视觉领域,如何为不同的检测任务匹配最合适的模型?我们可以从匹配度来分析。
首先,通用AI大模型直接用于工业检测通常效果不佳。原因很简单:训练它的互联网数据中,高质量的工业缺陷数据凤毛麟角。
而专门训练的工业检测大模型则不同。它通过学习海量的工业图像与文本数据,能掌握跨行业、跨产品的通用缺陷知识,因而具备强大的泛化能力。可以把它比作企业里的“多面手”,对于常见的、典型的工艺缺陷,能够实现“即插即用”。其优势在于适应性强,今天检测A产品,明天换到B产线,都能快速上手。当然,它的精度和推理速度存在上限,适合对绝对指标要求并非极端严苛、且需要快速适配多品种的场景。
场景大模型在特定领域内更进一步。它学习了该场景下足够规模的数据,因此在精度、速度和泛化性上能取得更好的平衡。好比直接聘请了一位该领域的资深专家,来了就能解决大部分问题。它适用于工艺有代表性、已积累大量同场景数据、且产品型号繁多的情形。
小模型的优势依然无可替代:极致精度与飞快速度。它就像一位经过严格单项训练的专业技工,能把一个特定任务做到99.9%以上的准确率,且成本可控。当工艺独特、数据稀少,或对检测指标(如微米级缺陷)有极致要求时,小模型仍是首选。
至于智能体,它在工业检测中的角色更像是“超级助手”,能够自动化处理数据标注、模型调参等重复性高、耗时长的任务,极大降低模型迭代的门槛与周期。
工业市场是高度碎片化的,场景、缺陷、指标要求千差万别。这意味着,未来必然是多种模型协同作战的时代,没有一种模型能通吃所有场景。这种协同是动态的:2024年,小模型可能仍占据95%以上的应用;而到了今年,场景大模型的落地案例正在快速增长,工业检测大模型也迎来了首个落地场景。预计未来几年,大模型的应用比例将快速上升,并最终与小型化、专用化模型形成稳定的分工格局。同时,模型训练智能体有望在一年内成为市场上的重要工具。
三、阿丘科技的AI产品布局
基于上述判断,阿丘科技正在构建一个覆盖不同模型层级的AI产品序列。
在小模型层面,面向高精度、高速度要求的专有场景,我们继续提供成熟的开发工具套件,例如业界熟悉的AIDI软件平台。
在场景大模型层面,我们提供面向PCB、磁材、烟草、金属及塑料表面等特定场景的端到端即插即用模型。实践表明,这类模型能将部分项目的落地周期从数月缩短至一周左右。
工业检测大模型(AQ-VLM)是我们今年的研发重点。它基于阿丘积累的工业视觉数据资产构建,包含两个分支:一是用于缺陷检测的视觉大模型,能在通用工业场景中实现开箱即用,并开放微调接口,仅需传统小模型1%左右的数据量即可快速适配新领域;二是通用缺陷生成模型,可根据文本提示和参考图,生成符合工业质检要求的高质量缺陷数据,用于扩充训练样本。
智能体则不会以独立产品形态出现,而是深度集成到AIDI等训练开发平台中。其目标是接管数据清洗、标注、参数调试等重复性专业工作,让人工只需专注于制定和校验标准,从而大幅提升模型研发效率。
四、实践案例:金属结构件检测中的协同策略
理论需要实践验证。最近,我们在多个金属结构件检测的客户场景中,尝试了VLM(视觉大模型)与小模型协同的方案,旨在解决模型复用难、落地周期长的问题。
具体策略根据缺陷特性进行划分:
对于明显缺陷(如典型压伤):直接使用预训练好的工业视觉大模型进行零样本检测。只需输入指令“检测压伤”,模型即可直接定位,无需额外训练。
对于不明显但常见的缺陷(如轻微划伤):采用“VLM + 微调”模式。利用大模型的基座能力,仅需提供少量该场景下的轻微划伤样本进行微调,即可使模型获得识别能力。
对于不明显且罕见的缺陷:采用“生成式大模型 + 小模型 + 智能体”组合拳。首先,利用缺陷生成模型,根据良品图和缺陷描述,生成形态多样、贴近真实的缺陷图像;然后,将这些生成数据与真实数据一同输入AIDI平台,由智能体辅助完成小模型的训练与优化。
总结来说,协同的核心理念是“分而治之,用其所长”。明显的、通用的缺陷交给大模型;不常见但可描述的缺陷,用大模型生成数据再训练小模型;而极其特殊、罕见的缺陷,则仍需依赖定制化的小模型。当然,各类模型的能力边界在不断变化,我们的方案也保持开放,持续探索更优的协同模式。
去年,我们曾提出“不会用AI的将会被用AI的淘汰”。而在今天这个技术加速变革的时代,或许可以加上一句:在AI工业视觉的新格局下,不会用大模型的人,很可能被善用大模型的人所超越。未来的竞争力,或许正体现在这种对复杂技术生态的理解与协同能力之上。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
朗玛信息股价下跌3.16%后市走势分析及投资机会探讨
今日A股市场整体走势偏弱,朗玛信息(股票代码300288)股价同步调整,截至收盘下跌3 16%,全天成交额4783 73万元,换手率为1 77%,公司总市值约为35 21亿元。股价的短期波动,引发了投资者对其核心投资逻辑与未来潜在机会的深入探讨。 异动深度解析:AI医疗战略的机遇与挑战 朗玛信息是市
Kimi联网搜索排除干扰技巧 精准限定提示词方法
在Kimi里搜索“2026年北京积分落户政策细则”,如果跳出来的总是房产中介的软文、培训机构的广告或者各种自媒体猜测,那说明默认的联网检索没有经过过滤。想要获得干净、权威的结果,必须主动使用结构化的提示词进行限定。 用结构化提示词锁定权威信源 这一步是关键,直接决定了你看到的信息是来自官方发布渠道,
Qoder编辑器自动保存功能设置与基础配置教程
为避免代码丢失,Qoder编辑器需手动开启自动保存功能。全局设置中可开启开关并选择触发条件,如按时间间隔或窗口失去焦点时保存。还可为特定项目单独配置,覆盖全局设置。若功能失效,需检查文件位置是否只读、用户权限是否足够,并避免直接编辑受保护的系统文件。
人工智能驱动外贸增长 机器人出海成新趋势
当前,全球人工智能产业浪潮澎湃,这股技术变革之风不仅深刻重塑着全球产业格局,也正为中国外贸增长注入全新的动力。一个清晰可见的趋势是,以算力服务、智能硬件为代表的“高含智量”产品与服务,已成为国际出口市场上的新焦点与增长点。 在广东汕头,一项名为“来数加工”的创新政策试点,正成功地将无形的计算能力转化
Nocera成立控股公司融资3亿美元 加速布局AI与数据中心市场
科技产业的竞争格局正迎来新一轮深刻变革。近日,纳斯达克上市公司Nocera, Inc (股票代码:NCRA)正式宣布启动一项全面的企业转型与品牌升级计划。其核心举措是成立全新的控股实体——Nocera控股公司,旨在系统性地布局人工智能、AI基础设施、数据中心、机器人技术、生物科技以及区块链与数字资产
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

