神经网络和深度学习的进步是人工智能技术重要分支
如今,人工智能系统已经能够完成诸多任务:识别照片与视频中的人脸及物体,实时将语音转换为文字,借助X光扫描提前数年检测癌症,甚至在最高难度的游戏中与人类展开较量。 就在几年前,这些挑战要么被认为无法攻克、至少还需等待数十年,要么只能以效果平平的方式勉强应对。然而,神经网络与深度学习的迅猛发展——作为人
如今,人工智能系统已经能够完成诸多任务:识别照片与视频中的人脸及物体,实时将语音转换为文字,借助X光扫描提前数年检测癌症,甚至在最高难度的游戏中与人类展开较量。

就在几年前,这些挑战要么被认为无法攻克、至少还需等待数十年,要么只能以效果平平的方式勉强应对。然而,神经网络与深度学习的迅猛发展——作为人工智能的关键分支——已经帮助计算机攻克了这些难题,并顺便解决了许多其他复杂问题。
遗憾的是,从零开始搭建一个深度学习模型,需要海量数据与强大的计算资源。这对绝大多数人来说,几乎是一种遥不可及的奢侈。此外,训练一个模型往往耗费大量时间,对于时间紧迫的任务根本不可行。幸运的是,迁移学习——一门利用已有AI模型知识来指导新模型训练的技术——恰好能解决这些痛点。
训练深度学习模型的成本
深度学习是机器学习的一个子集,其核心理念是通过大量训练样本教会AI模型。但直到近几年,由于效率过低,它在很大程度上被AI社区冷落。后来,数据量激增、计算资源成本下降,神经网络才重新成为焦点,使得开发能够解决实际问题的深度学习算法成为可能。
要训练一个深度学习模型,基本方法就是向神经网络输入大量带标签的样例——例如已标注物体的图像,或者患者的乳房X光片及其最终诊断结果。神经网络会仔细分析并比对这些图像,然后构建一个数学模型,用于捕捉同类图像中反复出现的模式。
好在大规模开源数据集已经存在,例如ImageNet(包含超过1400万张图片,涵盖22000个类别)和MNIST(包含6万个手写数字)。AI工程师可以借助这些资源来训练自己的模型。
但训练过程还需极其强大的计算硬件。开发者通常使用CPU、GPU集群,或谷歌Tensor处理器(TPU)等专用设备来高效完成训练。购置或租用这些设备的成本,对于小团队或个人开发者而言往往难以承受。更糟糕的是,许多问题本身根本无法提供足够的样本以训练一个强大的AI模型。
迁移学习显著降低深度学习训练门槛
假设一位AI工程师想创建一个图像分类神经网络来解决某个特定问题。他无需亲自收集成千上万张图片,而是可以借助ImageNet这类公共数据集,再补充少量自己领域的照片即可。
但计算资源的开销仍然是一个巨大障碍——将数百万张图像跑一遍神经网络,租用成本依然相当可观。这时,迁移学习便派上用场。迁移学习的思路很简单:拿一个之前已经训练好的神经网络,稍加调整,就能变成一个新的AI模型。
开发者不用从头训练自己的网络,而是直接下载一个开源的预训练深度学习模型,然后根据目标进行微调。市面上已有不少成熟的预训练基础模型,例如AlexNet、Google的Inception-v3、微软的ResNet-50。这些网络都是在ImageNet数据集上训练过的。AI工程师只需用自己领域的数据,对这些模型再做少量额外训练即可。
迁移学习的计算需求较低。大多数情况下,一台台式机或笔记本就能在几小时甚至更短时间内完成对预训练网络的微调。
迁移学习的工作原理
有趣的是,神经网络是分层发展的。每个神经网络都由多层组成,训练结束后,每一层都会被调整成专门检测输入数据中的特定特征。
以图像分类的卷积网络为例,前几层负责检测通用特征,比如边缘、角落、圆形、颜色块。越往深处,这些层就开始识别更具体的内容,比如眼睛、人脸、完整物体。
进行迁移学习时,AI工程师会将预训练神经网络的前几层“冻结”起来——这些层检测的是所有领域共有的通用特征。然后,他们对更深的层进行微调,用自己准备的样本来调整它们,并在网络末端添加新层,用于分类训练数据集中新增的类别。
预训练模型和微调后的模型,分别被称为“教师”模型和“学生”模型。
冻结多少层、微调多少层,取决于源AI模型与目标AI模型之间的相似度。如果学生解决的任务与老师非常接近,那么几乎不需要微调预训练模型的各层。开发者只需在网络末端添加一个新层,然后为新类别训练一下AI即可。这种方法称为“深层特征提取”。当目标领域的训练数据很少时,深层特征提取通常更为稳妥。
如果源域与目标域差异较大,或者训练样本很充足,开发者就会冻结预训练模型中的少量层,添加新的分类层,再用新样本微调未被冻结的层。这叫做“中间层特征提取”。
如果源AI模型与目标AI模型差异巨大,开发者可能干脆解冻整个神经网络,从头开始重新训练所有层。这种“完整模型微调”的迁移学习方式,也需要足够多的训练样本。
拿一个预训练模型来重新训练所有层,听起来有些多此一举。但实际上,它在时间和计算资源上仍然能节省不少。因为训练之前,神经网络中的变量是用随机数初始化的,然后在处理训练数据时不断调整。而预训练模型的变量值已经是针对数百万个训练样本优化过的,所以对新模型来说,这是一个更好的起点——只要新样本与源模型的任务有哪怕一点点相似。
迁移学习并非万能药
迁移学习确实解决了许多高效、低成本训练AI模型的问题,但它也有代价。如果预训练模型本身存在安全漏洞,那么以此为基础构建的AI模型也会继承这些漏洞。
例如,基础模型可能无法抵御对抗性攻击——精心构造的输入样本可以迫使AI以意想不到的方式改变行为。如果恶意攻击者针对基础模型开发出对抗性样本,那么这种攻击对从它派生出来的大多数AI模型都会有效。芝加哥大学、加州大学圣塔克拉拉分校和弗吉尼亚理工大学的研究人员,在去年的Usenix安全研讨会上发表的一篇论文中,充分演示了这一点。
另外,在某些领域——比如让AI玩游戏——迁移学习的用处非常有限。这类AI模型通常靠强化学习来训练,而强化学习计算量大、需要大量试错。在强化学习中,大多数新问题都是独一无二的,需要专门设计自己的训练方案。
但话说回来,对于大多数深度学习应用——如图像分类和自然语言处理——只要巧妙运用迁移学习,你大概率能找到一条捷径,节省大量时间和资源。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:神经网络和深度学习的进步是人工智能技术重要分支要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在招聘这个行业中,数据录入的繁琐程度相信大家都有切身体会。每天需要从各类网页、社交平台、招聘站点中搜寻候选人信息,再手动一条条录入系统,既耗时费力又容易出错。今天要介绍的这款Kwal Chrome插件,正是为了彻底解决这一痛点而设计的。什么是 Kwal Chrome 扩展程序 插件?该插件的定位十分
网红经济正在进化——Twinning AI带来的玩法是:粉丝可以直接跟你的人工智能分身聊天,而你,每次互动都能收到真金白银。它集成了专业的声音克隆、文本和语音消息,以及数据分析能力,让粉丝互动变得既有趣又能变&现。 什么是Twinning AI? 简单来说,Twinning AI允许网红创建一个属于
在跨境电商和全球业务快速发展的今天,发票与财务管理工具的重要性日益凸显。AI技术的加入,让这些原本繁琐的流程实现了质的飞跃。Invoicemint 正是这样一款专注全球企业的智能发票与财务管理软件——它不只是一个简单的发票生成器,而是一套覆盖从开票、对账到税务合规、催款的全链路解决方案。 什么是In
想象一下,你随时都能找到一个倾听者——不带任何偏见,不会感到疲惫,而且完全匿名。这听起来像科幻小说里的情节,但现在已经成为现实。MyWhy 就是这样一款 AI 心理治疗应用,它将专业的情感支持装进你的口袋,让心理健康服务不再是奢侈品,而是像打开手机一样触手可及。什么是MyWhy?简单来说,MyWhy
- 日榜
- 周榜
- 月榜
热点快看
