数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

弱人工智能的三种核心能力详解

AI热点日报时间：2026-07-03

热点解读

弱人工智能聚焦学习、感知与认知三种能力。学习包含有监督、无监督及强化学习；感知涵盖计算机视觉、语音识别与自然语言处理；认知涉及推理、规划与决策。这些技术已在企业广泛应用，并取得突破性进展。

人工智能的核心能力：学习、感知与认知

人类智慧的广度与复杂性，目前仍是AI难以企及的领域。从抽象问题解决、概念生成，到情绪感知、创造力乃至自我认知，即便是最先进的深度学习算法，在这些维度上与人类智慧仍有显著差距。将这些能力整合进一台机器，使其能够应对各类通用场景，这便是通用人工智能（AGI）的目标。不过，当前AGI仍停留在理论探索阶段。

然而，现有技术在特定任务执行上确实取得了显著成就，这些任务以往都需要依赖人类智力。我们称这部分AI为狭义人工智能或弱人工智能。它主要聚焦于三大核心能力：学习、感知与认知。

▲ AI能力速览图：上图展示了本文即将介绍的AI核心能力。

在与客户探讨AI时，他们最常问的问题是：“这项技术到底可行吗？”在AI被过度追捧的当下，确实很难区分哪些是真实进展，哪些只是营销噱头。但可以明确的是，前面提到的这些能力，如今已经真实存在。成千上万的企业正在借助AI进行业务转型。关注AI的未来固然重要，但更关键的是，你需要了解当前的AI究竟能做什么，以及如何为你创造价值。

01 学习

▲ 学习——无需显式编程的自我进化

机器学习的本质，在于它能够随着时间推移进行自我学习，而无需明确的编程指令。这与人类的学习方式高度相似——通过探索与实践积累经验，而非机械地遵循每一步指令。

机器学习算法根据学习方式进行分类。目前最流行、企业90%的应用场景都可能采用的，是有监督学习。

有监督学习需要依赖包含输入和期望输出的数据集。通过反复迭代优化，算法会找到一个函数，将输入到输出的映射关系建模。随后，该模型可用于处理全新的、未见过的数据，并预测其输出结果。

找到合适的算法与参数，一半靠科学，另一半则依赖创造力与直觉。如何将机器学习本身转化为自动化流程，这正是自动化机器学习（AutoML）试图解决的问题。

有监督学习算法有一个共同短板：它们需要海量数据。而且并非任意数据都行，必须同时包含输入与对应的输出，即所谓的“标注数据”。

有时，我们运气不错，手头拥有历史标注数据，例如客服系统或交互系统中就存储着这类信息。以客户流失预测模型为例：我们可以利用已流失客户的历史数据，结合他们与客服的历史交互记录，作为训练数据的输出部分。只要选用合适的算法，仅通过分析一系列交互行为，就能预测出哪些客户未来可能流失。

但更多时候，我们并没有那么幸运，数据往往未经标注。这时就需要无监督学习发挥作用。它处理一组无标签数据，自行寻找其中的结构。聚类算法是其中应用最广泛的一种，它运用不同技术发现数据中的共同点并进行分组。例如，你可以用它来细分客户群或网站访问者。

其他常见的无监督学习算法还包括关联规则（例如发现“购买A商品的用户通常也会购买B商品”这类关联）和异常检测（识别数据中那些与众不同、可能存在问题或极为罕见的数据点）。

还有一种情况，我们完全无需使用训练数据。想想看，我们是如何学会玩一款新游戏的？有监督的方法是通过观看数千个游戏视频来学习——这也是许多YouTuber的商业模式，但坦白说，这种方式极其枯燥。

更有趣的方式，是直接上手体验。在游戏过程中，做对了（例如得分）会得到正向强化，做错了（例如被击败）则会得到负向强化。强化学习正是为此而生：它通过探索环境，利用强化行为的方式来学习如何达成目标。

强化学习由于无需预先准备数据，在商业领域是一种非常有前景的机器学习方法。它特别适用于自动化系统——无论是移动的（如自动驾驶汽车、无人机）还是静止的（如空调、电力系统）——也可以应用于复杂的业务流程。强化学习通常被认为是AI中最具挑战性的学科之一。

02 感知

▲ 感知——解读周围世界

如果说哪个领域是人类独有的，那可能就是感知了。几十年来，我们一直尝试模仿人类感知周围世界的能力，但成功者寥寥。理解一幅图画或把语音转换成文字，其不确定性几乎让人无法用编程的方式解决——试想一下，如何用一步步的指令去定义一张图片中的一匹马？

但机器学习算法正是解决这类问题的能手。不过，传统机器学习在处理感知任务时，准确率与人类相比还是差距明显。

以图像分类为例。ImageNet是该领域最著名的挑战赛。自2010年起，全球参与者提交算法，角逐最精准的模型。比赛初期（2010年），最优误差率大约在25%左右。相比之下，同一组数据的人类误差率约为5.1%。

到了2012年，多伦多大学的学生Alex Krizhevsky提交了他的方案：一个包含8层、名为AlexNet的神经网络。AlexNet一举夺冠，误差率降至15.3%，比第二名低了整整10个百分点。随后几年，他引入的技术被不断改进，网络层数也逐步增加。到2014年，一个22层的GoogLeNet将误差率降至6.7%。

第二年，微软研究院的团队推出了全新的神经网络技术，网络深度达到惊人的152层，误差率仅为3.57%，首次超越了人类的表现。

深度学习彻底改变了计算机视觉。如今，这项技术已被应用于几乎所有需要高精度的视觉场景，也成了企业中最常见的AI应用之一。以下是当前的一些应用方向：

为图像内容分类（影像分类）
识别图像中的多个物体，并标注每个物体的边界（物体检测）
识别图像中的场景或行为（例如识别工作场所的不安全行为，或零售店中的缺货情况）
检测人脸、识别身份，甚至分辨每张脸的情绪状态
识别文字，包括手写体（光学字符识别）
鉴别图像或视频中的不当内容

有研究表明，人类获取的信息中，83%来自视觉，11%来自听觉。两者合计，占据了感知输入的94%。因此，音频处理自然成为AI关注的另一重点领域，仅次于计算机视觉。

同样的深度学习技术也可用于处理音频信号，帮助计算机识别声音。你可以利用这项能力区分不同鸟类的叫声，或者通过风力涡轮机发出的声音来预测故障。

不过AI在音频处理上最令人兴奋的成果，还是语音识别。用于语音识别测试的基准数据集Switchboard，包含约260小时的电话交谈录音。人类的转录误差率是5.9%。该数字在2016年被微软研究院用神经网络追平，2017年又被进一步降至5.1%。这是有史以来，机器第一次比人类自己更能理解人类所说的话。

这些突破不仅让机器“听懂”了我们，也让机器能够用自然的方式与我们交流。2018年，基于深度学习的文字转语音服务正式上线，能够合成出与真人几乎无异的人声。

这些能力的结合，让一个计算机科学的“圣杯”变得可能：全自然用户接口（NUI）。当机器既能看见并理解人类，又能用自然语言与人交流时，看起来就像科幻电影里的幻想成真了。但事实真的如此吗？要与计算机进行真正有意义的交流，它不仅要能转录我们说的话，更要能理解话中的含义。

自然语言处理（NLP）正是从人类语言中分析、理解并提取含义的AI领域。NLP最常见的应用之一就是语言理解，它是现代会话型人工智能（如Siri、Alexa、Cortana等数字助手）的基础。

当你询问Siri天气时，系统首先将你的语音转为文字，然后通过自然语言理解模型抽取你的意图（例如“查询天气”），最后将该意图映射到具体操作（提供当地天气信息）。

NLP技术近年来发展迅猛。有些技术能处理简单任务，如情绪分析、关键词提取或实体识别；有些则能处理更复杂的任务，如文本摘要或翻译。2018年，微软的机器翻译团队首次在自动翻译方面达到人类水平——这曾被认为是一项几乎不可能完成的任务。

自然语言理解最激动人心的应用之一，是机器阅读理解。2018年1月，微软亚洲研究院的团队在斯坦福问答数据集（SQuAD）上达到了人类水平。该数据集包含许多针对维基百科文章的提问。实际上，系统给出的开放性问题答案，甚至比人类还要好。许多公司都在这个领域持续投入，推动其走向更远。

尽管如此，这些系统依然无法达到人类的抽象层次。本质上，问答算法是在文本中搜索，寻找指向正确答案的线索。人类也经常这样做（尤其是时间紧迫时），但当我们真正想理解一段文字时，我们会从中抽取知识、进行概括，使其更容易被理解。

想象一段描述加利福尼亚的文字。人类读完后，会从中归纳出“加利福尼亚”这个实体，再为其赋予一些属性（如人口、面积），甚至总结出它与其他实体（如邻州、州长）的关系。归纳之后，我们就不再需要原文来回答关于加利福尼亚的问题了。我们已经将相关知识抽象出来了。

AI中与此相对应的是知识抽取。这对企业具有非常深远的意义。通过这种技术，我们可以从混沌、无序甚至杂乱无章的信息中，提取出高阶的概念。最终形成的知识图谱，不仅能用来回答关于整个数据集的宽泛问题，还能帮助我们浏览和理解这些信息。

这种水平的抽象，已经远远超出了传统NLP的能力范围，使其更接近我们所说的“认知”。

03 认知

▲ 认知——基于数据进行推理

严格来说，认知是获取和处理知识的能力。它包括推理、理解、解决问题、计划和决策这些高级概念。

我们上面讨论的技术，其实已经包含了某种程度的认知，虽然有时不那么明显。以图像分类为例，如果我们仔细审视用于分类的深度神经网络，就能看到它在每一层都把问题分解成更小的步骤。无需人工干预，神经网络自己就展示了某种程度的抽象：第一层检测简单的特征，如边缘或纹理；往更深层走，每一层都能抽取更复杂的属性，如图案或物体。从这个角度看，神经网络已经在获取知识，并用这些知识进行基础推理。

自然语言处理展现了类似的抽象过程。核心来说，大多数现代NLP技术都使用了词嵌入。通过词嵌入，文本中的每个词都被转换成一个代表其含义的向量。在这个新空间中，语义相近的词（如“天气”和“预报”）彼此距离很近。通过这种方式，系统能把“今天天气如何？”和“获取未来24小时的预报”匹配成相同的意图。即使使用的词语不同，它们的含义是相近的。翻译也是类似的原理：先用词嵌入把输入的文本抽象成一个与语言无关的“思想”，再反向翻译成任何一种语言。

在这些例子中，认知是感知的一部分。但很多AI场景是纯粹的认知问题：它们不专注于感知周围的世界，而是专注于抽象这个世界，并基于这种抽象进行推理。

一些最基础的有监督学习方法就是如此。比如回归分析，它可以根据已知信息预测数值，例如根据房屋的特征和位置评估价值，或者根据历史数据预估销售额。分类则是根据物品自身的特征对其分级或归类，例如判断一栋房子是否会被某个特定买家购买。优化算法可以基于流程进行推理，从而最大化某个特定结果，例如在医院里分配资源。

推荐系统仅通过评分或购买历史，就能找出电影、书籍或歌曲等物品之间不为人知的共性。其他技术，如之前提到的聚类分析，也能发现数据中的模式，并以无监督的方式对物品分类。

我们在强化学习技术中也能看到认知的影子。2017年，微软蒙特利尔研究院的研究人员让一个系统在吃豆人游戏里突破了100万分大关。这个系统是通过玩数千把来自我训练的。

同样，2018年，OpenAI Five（一个由五个神经网络组成的团队）在Dota 2游戏里打败了人类职业队伍。它通过自我对战来训练，每天的训练量相当于人类玩180年。

最著名的例子，应该就是DeepMind的AlphaGo。它首次击败了九段围棋专业选手。相比国际象棋等游戏，围棋对计算机来说要困难得多。

仔细观察这些AI系统在游戏中的表现，你会发现它们展示出了认知的另一个特征——计划。它们能提前“思考”出最佳的长期策略，从而让分数最大化。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：弱人工智能的三种核心能力详解要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://m.elecfans.com/article/1479943.html

ai 人工智能

上一篇：AI编程圈火爆的MCP到底是什么

下一篇：凌华科技推DLAPx86系列实现智能边缘AI推理

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。