数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

人工智能机器学习深度学习三者关系与发展史

AI热点日报时间：2026-07-01

热点解读

首先，我们来明确一个基础概念：深度学习本质上是机器学习中一种基于数据表征（representation learning）的方法。观测数据（例如一张图像）可以通过多种形式来描述，比如每个像素的强度向量，或者更抽象地表示为一系列边缘、特定形状的区域。某些特定的表示方式，能够使从样本中学习任务（如人脸识

首先，我们来明确一个基础概念：深度学习本质上是机器学习中一种基于数据表征（representation learning）的方法。观测数据（例如一张图像）可以通过多种形式来描述，比如每个像素的强度向量，或者更抽象地表示为一系列边缘、特定形状的区域。某些特定的表示方式，能够使从样本中学习任务（如人脸识别、表情识别）变得更加高效。

那么深度学习究竟有何优势？其核心在于，它能够通过非监督或半监督的特征学习、分层特征提取等高效算法，取代人工特征工程。这一方向是机器学习研究领域的新兴分支，动机非常直接：构建并模拟人脑进行分析学习的神经网络，从而解释图像、语音和文本等数据。

人工智能、机器学习和深度学习三者之间的关系

深度学习与神经网络详解

现实世界中的众多问题，归根结底都可以归类为分类、识别或选择。例如下围棋，每一步落子本质上都是一个选择问题。针对这类问题，学术界研发出了名为“神经网络”的学习策略。

深度学习的概念本身就源于人工神经网络的研究。包含多个隐层的多层感知器便是一种典型的深度学习结构。它通过组合低层特征，形成更为抽象的高层表示属性类别或特征，从而挖掘出数据的分布式特征表示。

从X1/X2/X3输入到输出的过程，定义了一个层次化概念。例如上图包含了四层：最左侧的输入层和最右侧的输出层。如果将其比作一道选择题，那么题目就是输入层，ABCD的选项结果就是输出层。图中的L1和L2分别扮演了输入层和输出层的角色。

而解题的具体过程我们通常无法看到，它被称为“隐藏层”。这里的L2和L3就是隐藏层。题目越难、给出的信息越多，解题所需的步骤就越复杂，可能需要更多的“隐藏层”来计算最终结果。

现在可以解释深度学习的“深度”含义——即从“输入层”到“输出层”所经历的层次数目，也就是“隐藏层”的层数。层数越多，模型深度越深。因此，越是复杂的选择问题，越需要更深的网络层次。当然，除了层数多，每层的“神经元”——即图中那些橙色小圆圈——数量也要充足。例如AlphaGo的策略网络有13层，每层包含192个神经元。

总结而言：深度学习是一种利用多层次分析和计算手段得出结果的方法。它致力于构建并模拟人脑进行分析学习的神经网络，模仿人脑机制来解释数据，属于机器学习技术范畴。其基本特点在于试图模仿大脑中神经元之间传递、处理信息的模式。最显著的应用领域包括计算机视觉和自然语言处理（NLP）。可以明确，“深度学习”与机器学习中的“神经网络”紧密相关，后者是其核心算法与手段；也可以将“深度学习”视为“改良版的神经网络”算法。

深度学习发展历史

学习任何一门知识，都应当从了解其历史开始。把握了历史，也就抓住了现在与未来。

起源阶段

1943年，神经科学家麦卡洛克（W.S.McCilloch）和数学家皮兹（W.Pitts）在《数学生物物理学公告》上发表了论文《神经活动中内在思想的逻辑演算》，建立了神经网络与数学模型，即MP模型。该模型模仿神经元的结构和工作原理，本质上是一种“模拟人类大脑”的神经元模型，其目标是利用计算机模拟人的神经元反应过程。MP模型将神经元简化为三个步骤：输入信号线性加权、求和、非线性激活（阈值法）。如下图所示。

MP模型作为人工神经网络的起源，开创了一个崭新的时代，也为后续神经网络模型的发展奠定了坚实基础。

1949年，加拿大心理学家唐纳德·赫布在《行为的组织》一书中提出了与“条件反射”机理一致的“网络模型”——海布学习规则（Hebb Rule）。这一规则为后来的神经网络学习算法奠定了基础，具有重大意义。

1958年，计算机科学家罗森布拉特（Rosenblatt）提出了由两层神经元组成的神经网络，命名为“感知器”（Perceptrons）。感知器本质上是一个线性模型，能够对输入的训练数据进行二分类，并在训练过程中自动更新权值。它的提出吸引了大量研究者对人工神经网络的兴趣，成为里程碑式的事件。

1962年，该方法被证明能够收敛，理论与实践的成果共同引发了第一次神经网络浪潮。

1969年，“AI之父”马文·明斯基和LOGO语言的创始人西蒙·派珀特合著了《感知器》一书。书中指出感知器本质上是线性模型，只能处理线性分类问题，甚至连最简单的XOR（异或）问题都无法正确分类。人工神经网络由此进入第一个寒冬期，研究陷入近20年的停滞。

发展阶段

1986年，神经网络之父杰弗里·辛顿（Geoffrey Hinton）发明了适用于多层感知器（MLP）的反向传播（BP）算法，并采用Sigmoid函数进行非线性映射，有效解决了非线性分类与学习问题。该方法引发了神经网络的第二次热潮。

但当时计算机硬件水平有限，随着神经网络规模增大，BP算法出现了“梯度消失”问题——误差梯度传递到前层时几乎为零，导致前层无法有效学习。这直接阻碍了深度学习的进一步发展。

此外，90年代中期，支持向量机（SVM）等浅层机器学习算法相继被提出，在分类和回归问题上表现出色，其原理与神经网络截然不同。人工神经网络的发展再次陷入瓶颈。

爆发阶段

2006年，加拿大多伦多大学教授、机器学习领域泰斗杰弗里·辛顿及其学生鲁斯兰·萨拉赫丁诺夫（Ruslan Salakhutdinov）在顶尖刊物《科学》上发表了一篇文章，提出了深层网络训练中梯度消失问题的解决方案：通过无监督学习逐层训练算法，再利用有监督的反向传播算法进行调优。这篇文章开启了深度学习在学术界和工业界的浪潮。

2012年，辛顿课题组为证明深度学习的潜力，首次参加ImageNet图像识别比赛。他们构建的卷积神经网络AlexNet一举夺冠，并以压倒性优势战胜第二名（SVM方法）的分类性能。正是这次比赛，CNN吸引了众多研究者的关注。

2014年，Facebook基于深度学习技术的DeepFace项目实现了人脸识别准确率超过97%，与人类识别水平几乎没有差别。这再次证明了深度学习在图像识别领域的统治力。

2016年，谷歌基于深度学习开发的AlphaGo以4:1战胜国际顶尖围棋高手李世石，深度学习的热度达到了顶峰。2017年，基于强化学习的AlphaGo Zero横空出世，采用“从零开始”、“无师自通”的学习模式，以100:0的比分轻松战胜了之前的AlphaGo。

同一年，深度学习相关算法在医疗、金融、艺术、无人驾驶等多个领域都取得了显著成果。因此，有专家将2017年视为深度学习乃至人工智能发展最为突飞猛进的一年。

深度学习的典型代表

在深度学习领域，有两个典型代表：卷积神经网络（CNN）和循环神经网络（RNN）。

· 卷积神经网络广泛应用于计算机视觉领域，例如强大的AlphaGo就采用了CNN。

· 循环神经网络则广泛应用于语音识别与处理领域，例如百度翻译、网络音乐生成等。

深度学习还可进一步分为卷积神经网络和深度置信网（DBN）。其核心思想是模拟人类神经元：每个神经元接收信息，经处理后传递给相邻的所有神经元。

卷积神经网络

1962年，Hubel和Wiesel通过对猫视觉皮层细胞的研究，提出了感受野（receptive field）概念。1984年，日本学者Fukushima基于感受野概念提出了神经认知机（neocognitron），这可以视作卷积神经网络的第一个实现网络，也是感受野概念在人工神经网络领域的首次应用。

神经认知机将视觉模式分解为多个子模式（特征），然后进入分层递阶式相连的特征平面进行处理。它试图将视觉系统模型化，使其在物体发生位移或轻微变形时仍能完成识别。

随着深度学习的发展，受猫脑视觉皮层研究中局部感受野的启发，卷积神经网络通过稀疏连接和参数共享两个思想改进了深度神经网络。左侧为CNN结构，右侧为全连接形式的神经网络。

卷积神经网络是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。其权值共享网络结构更类似于生物神经网络，降低了模型复杂度，减少了权值数量。这一优点在网络输入为多维图像时尤为明显——图像可直接作为网络输入，避免了传统识别算法中复杂的特征提取与数据重建。卷积网络是为识别二维形状而特殊设计的多层感知器，对平移、比例缩放、倾斜或其他形式的变形具有高度不变性。

CNN是第一个真正成功训练多层网络结构的学习算法。它利用空间关系减少需要学习的参数数量，从而提升一般前向BP算法的训练性能。作为深度学习架构，CNN的目标是最小化数据预处理的要求。在CNN中，图像的一小部分（局部感受区域）作为层级结构最低层的输入，信息再依次传输到不同层，每层通过数字滤波器获取观测数据的最显著特征。这种方法能够获取对平移、缩放和旋转不变的显著特征，因为局部感受区域允许神经元访问最基础的特征，例如定向边缘或角点。

深度学习的优点与挑战

基于深度神经网络的端到端学习近年来取得了巨大成功，被广泛应用于计算机视觉、语音识别、自然语言处理、医学图像处理等多个领域。

· 优点：深度学习能够使计算机自动学习模式特征，并将特征学习融入建模过程，从而减少人为设计特征带来的不完备性。目前已有部分深度学习系统在识别或分类任务上超越了传统算法的性能。

· 缺点：需要大量数据支持才能达到高精度。由于深度学习图模型较为复杂，算法时间复杂度急剧上升，需要更强大的硬件支撑。因此，只有经济实力较强的科研机构或企业，才能利用深度学习开展前沿实用的应用。

此外，纽约大学教授、人工智能创业者Gary Marcus在2018年对深度学习的作用、局限性与本质进行了重要回顾。他指出深度学习的局限性包括：需要更多数据、容量有限、不能处理层次结构、无法进行开放式推理、不能充分透明、不能与先验知识集成、不能区分因果关系。他还提到，深度学习假设了一个稳定的世界，以近似方法实现，工程化难度大，且存在过度炒作的风险。Marcus认为深度学习需要重新概念化，应在非监督学习、符号操作和混合模型中寻找可能性，从认知科学和心理学中获得见解，并迎接更大胆的挑战。

以下是当前深度学习领域的一些标志性公司及其代表性技术：

· 语音识别技术：国内代表有科大讯飞、百度、阿里，国外有亚马逊、微软等，行业应用包括智能音箱等产品。

· 图像识别技术：例如安防领域的海康威视、图森科技、依图科技、旷视科技，代表应用包括面部识别、人脸识别、刷脸解锁与支付等。

· 自动驾驶技术：如特斯拉、Uber、百度等公司推出的产品。

· 金融领域：股价预测；医疗领域：疾病监测；教育领域：技术赋能等。

深度学习与计算机视觉

传统计算机视觉是一系列算法的集合，其主要目标是从图像中提取特征，包括边缘检测、角点检测、基于颜色的分割等子任务。目前，传统计算机视觉已有多种用途，例如对不同对象进行去噪、增强和检测。

但这种方法存在一个主要问题：需要告诉系统在图像中寻找哪些特征。本质上，算法按照设计者的定义运行，提取的特征是人为设计的。在实际实现中，性能不足可以通过微调改进，但这类更改需要手工完成，且针对特定应用硬编码——这对高质量计算机视觉的实现构成了很大障碍。

深度学习的出现解决了这一问题。当前，深度学习系统在处理相关子任务方面取得了重大进展。最大的不同在于：不再通过精心编程的算法搜索特定特征，而是训练神经网络。随着计算能力的增强，计算机能够识别并对它看到的一切做出反应，这方面已取得显著进展。

近年来，深度学习的发展不仅突破了许多难以解决的视觉难题，提升了图像认知水平，还加速了计算机视觉领域相关技术的进步。可以预见，随着模型改进和计算能力提升，自主系统将继续稳步发展，真正实现能解释并反映其所感知到的内容。

深度学习对于计算机视觉系统而言无疑是一个有趣的补充。如今，我们可以相对容易地“训练”探测器来探测那些昂贵且不切实际的物体，还能在一定程度上利用更多计算能力扩展这些探测器。

令人意外的是，深度学习教会了我们一些关于视觉数据（通常是高维数据）的新认知。这个观点非常有趣：在某种程度上，数据比我们过去认为的要“浅”得多。似乎有更多的方法来统计地分离标有高级人类类别的可视化数据集，也有更多的方法来分离这些“语义正确”的数据集。换言之，低层次图像特征组比我们想象的更具“统计意义”。这正是深度学习的伟大发现。

深度学习已成为计算机视觉系统的重要组成部分。但传统的计算机视觉并未走到尽头，它仍然可以用来构建非常强大的探测器。这些人工制作的检测器在某些特定数据集指标上可能无法达到深度学习的高性能，但可以保证依赖于输入的“语义相关”特征集。

深度学习提供了统计性能强大的检测器，且不需要牺牲特征工程——但仍然需要大量标注数据、大量GPU以及深度学习专家。然而，这些强大的检测器也会遭遇意外的失败，因为它们的适用范围难以轻易描述——或者说，根本无法描述。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：人工智能机器学习深度学习三者关系与发展史要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://m.elecfans.com/article/1295706.html

机器学习

上一篇：地平线旭日3.0芯片发布：2.5W功耗5Tops算力，赋能AIoT边缘智能

下一篇：机器学习中特征提取与特征选择的区别

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。