面包屑图标 当前位置: 首页
AI资讯
热点详情

弱人工智能的三种核心能力详解

AI热点日报
AI热点日报时间:2026-07-03
热点解读

弱人工智能聚焦学习、感知与认知三种能力。学习包含有监督、无监督及强化学习;感知涵盖计算机视觉、语音识别与自然语言处理;认知涉及推理、规划与决策。这些技术已在企业广泛应用,并取得突破性进展。

人工智能的核心能力:学习、感知与认知

人类智慧的广度与复杂性,目前仍是AI难以企及的领域。从抽象问题解决、概念生成,到情绪感知、创造力乃至自我认知,即便是最先进的深度学习算法,在这些维度上与人类智慧仍有显著差距。将这些能力整合进一台机器,使其能够应对各类通用场景,这便是通用人工智能(AGI)的目标。不过,当前AGI仍停留在理论探索阶段。

然而,现有技术在特定任务执行上确实取得了显著成就,这些任务以往都需要依赖人类智力。我们称这部分AI为狭义人工智能或弱人工智能。它主要聚焦于三大核心能力:学习、感知与认知

▲ AI能力速览图:上图展示了本文即将介绍的AI核心能力。

在与客户探讨AI时,他们最常问的问题是:“这项技术到底可行吗?”在AI被过度追捧的当下,确实很难区分哪些是真实进展,哪些只是营销噱头。但可以明确的是,前面提到的这些能力,如今已经真实存在。成千上万的企业正在借助AI进行业务转型。关注AI的未来固然重要,但更关键的是,你需要了解当前的AI究竟能做什么,以及如何为你创造价值。

01 学习

▲ 学习——无需显式编程的自我进化

机器学习的本质,在于它能够随着时间推移进行自我学习,而无需明确的编程指令。这与人类的学习方式高度相似——通过探索与实践积累经验,而非机械地遵循每一步指令。

机器学习算法根据学习方式进行分类。目前最流行、企业90%的应用场景都可能采用的,是有监督学习

有监督学习需要依赖包含输入和期望输出的数据集。通过反复迭代优化,算法会找到一个函数,将输入到输出的映射关系建模。随后,该模型可用于处理全新的、未见过的数据,并预测其输出结果。

找到合适的算法与参数,一半靠科学,另一半则依赖创造力与直觉。如何将机器学习本身转化为自动化流程,这正是自动化机器学习(AutoML)试图解决的问题。

有监督学习算法有一个共同短板:它们需要海量数据。而且并非任意数据都行,必须同时包含输入与对应的输出,即所谓的“标注数据”。

有时,我们运气不错,手头拥有历史标注数据,例如客服系统或交互系统中就存储着这类信息。以客户流失预测模型为例:我们可以利用已流失客户的历史数据,结合他们与客服的历史交互记录,作为训练数据的输出部分。只要选用合适的算法,仅通过分析一系列交互行为,就能预测出哪些客户未来可能流失。

但更多时候,我们并没有那么幸运,数据往往未经标注。这时就需要无监督学习发挥作用。它处理一组无标签数据,自行寻找其中的结构。聚类算法是其中应用最广泛的一种,它运用不同技术发现数据中的共同点并进行分组。例如,你可以用它来细分客户群或网站访问者。

其他常见的无监督学习算法还包括关联规则(例如发现“购买A商品的用户通常也会购买B商品”这类关联)和异常检测(识别数据中那些与众不同、可能存在问题或极为罕见的数据点)。

还有一种情况,我们完全无需使用训练数据。想想看,我们是如何学会玩一款新游戏的?有监督的方法是通过观看数千个游戏视频来学习——这也是许多YouTuber的商业模式,但坦白说,这种方式极其枯燥。

更有趣的方式,是直接上手体验。在游戏过程中,做对了(例如得分)会得到正向强化,做错了(例如被击败)则会得到负向强化。强化学习正是为此而生:它通过探索环境,利用强化行为的方式来学习如何达成目标。

强化学习由于无需预先准备数据,在商业领域是一种非常有前景的机器学习方法。它特别适用于自动化系统——无论是移动的(如自动驾驶汽车、无人机)还是静止的(如空调、电力系统)——也可以应用于复杂的业务流程。强化学习通常被认为是AI中最具挑战性的学科之一。

02 感知

▲ 感知——解读周围世界

如果说哪个领域是人类独有的,那可能就是感知了。几十年来,我们一直尝试模仿人类感知周围世界的能力,但成功者寥寥。理解一幅图画或把语音转换成文字,其不确定性几乎让人无法用编程的方式解决——试想一下,如何用一步步的指令去定义一张图片中的一匹马?

但机器学习算法正是解决这类问题的能手。不过,传统机器学习在处理感知任务时,准确率与人类相比还是差距明显。

以图像分类为例。ImageNet是该领域最著名的挑战赛。自2010年起,全球参与者提交算法,角逐最精准的模型。比赛初期(2010年),最优误差率大约在25%左右。相比之下,同一组数据的人类误差率约为5.1%。

到了2012年,多伦多大学的学生Alex Krizhevsky提交了他的方案:一个包含8层、名为AlexNet的神经网络。AlexNet一举夺冠,误差率降至15.3%,比第二名低了整整10个百分点。随后几年,他引入的技术被不断改进,网络层数也逐步增加。到2014年,一个22层的GoogLeNet将误差率降至6.7%。

第二年,微软研究院的团队推出了全新的神经网络技术,网络深度达到惊人的152层,误差率仅为3.57%,首次超越了人类的表现。

深度学习彻底改变了计算机视觉。如今,这项技术已被应用于几乎所有需要高精度的视觉场景,也成了企业中最常见的AI应用之一。以下是当前的一些应用方向:

  • 为图像内容分类(影像分类)
  • 识别图像中的多个物体,并标注每个物体的边界(物体检测)
  • 识别图像中的场景或行为(例如识别工作场所的不安全行为,或零售店中的缺货情况)
  • 检测人脸、识别身份,甚至分辨每张脸的情绪状态
  • 识别文字,包括手写体(光学字符识别)
  • 鉴别图像或视频中的不当内容

有研究表明,人类获取的信息中,83%来自视觉,11%来自听觉。两者合计,占据了感知输入的94%。因此,音频处理自然成为AI关注的另一重点领域,仅次于计算机视觉。

同样的深度学习技术也可用于处理音频信号,帮助计算机识别声音。你可以利用这项能力区分不同鸟类的叫声,或者通过风力涡轮机发出的声音来预测故障。

不过AI在音频处理上最令人兴奋的成果,还是语音识别。用于语音识别测试的基准数据集Switchboard,包含约260小时的电话交谈录音。人类的转录误差率是5.9%。该数字在2016年被微软研究院用神经网络追平,2017年又被进一步降至5.1%。这是有史以来,机器第一次比人类自己更能理解人类所说的话。

这些突破不仅让机器“听懂”了我们,也让机器能够用自然的方式与我们交流。2018年,基于深度学习的文字转语音服务正式上线,能够合成出与真人几乎无异的人声。

这些能力的结合,让一个计算机科学的“圣杯”变得可能:全自然用户接口(NUI)。当机器既能看见并理解人类,又能用自然语言与人交流时,看起来就像科幻电影里的幻想成真了。但事实真的如此吗?要与计算机进行真正有意义的交流,它不仅要能转录我们说的话,更要能理解话中的含义。

自然语言处理(NLP)正是从人类语言中分析、理解并提取含义的AI领域。NLP最常见的应用之一就是语言理解,它是现代会话型人工智能(如Siri、Alexa、Cortana等数字助手)的基础。

当你询问Siri天气时,系统首先将你的语音转为文字,然后通过自然语言理解模型抽取你的意图(例如“查询天气”),最后将该意图映射到具体操作(提供当地天气信息)。

NLP技术近年来发展迅猛。有些技术能处理简单任务,如情绪分析、关键词提取或实体识别;有些则能处理更复杂的任务,如文本摘要或翻译。2018年,微软的机器翻译团队首次在自动翻译方面达到人类水平——这曾被认为是一项几乎不可能完成的任务。

自然语言理解最激动人心的应用之一,是机器阅读理解。2018年1月,微软亚洲研究院的团队在斯坦福问答数据集(SQuAD)上达到了人类水平。该数据集包含许多针对维基百科文章的提问。实际上,系统给出的开放性问题答案,甚至比人类还要好。许多公司都在这个领域持续投入,推动其走向更远。

尽管如此,这些系统依然无法达到人类的抽象层次。本质上,问答算法是在文本中搜索,寻找指向正确答案的线索。人类也经常这样做(尤其是时间紧迫时),但当我们真正想理解一段文字时,我们会从中抽取知识、进行概括,使其更容易被理解。

想象一段描述加利福尼亚的文字。人类读完后,会从中归纳出“加利福尼亚”这个实体,再为其赋予一些属性(如人口、面积),甚至总结出它与其他实体(如邻州、州长)的关系。归纳之后,我们就不再需要原文来回答关于加利福尼亚的问题了。我们已经将相关知识抽象出来了。

AI中与此相对应的是知识抽取。这对企业具有非常深远的意义。通过这种技术,我们可以从混沌、无序甚至杂乱无章的信息中,提取出高阶的概念。最终形成的知识图谱,不仅能用来回答关于整个数据集的宽泛问题,还能帮助我们浏览和理解这些信息。

这种水平的抽象,已经远远超出了传统NLP的能力范围,使其更接近我们所说的“认知”。

03 认知

▲ 认知——基于数据进行推理

严格来说,认知是获取和处理知识的能力。它包括推理、理解、解决问题、计划和决策这些高级概念。

我们上面讨论的技术,其实已经包含了某种程度的认知,虽然有时不那么明显。以图像分类为例,如果我们仔细审视用于分类的深度神经网络,就能看到它在每一层都把问题分解成更小的步骤。无需人工干预,神经网络自己就展示了某种程度的抽象:第一层检测简单的特征,如边缘或纹理;往更深层走,每一层都能抽取更复杂的属性,如图案或物体。从这个角度看,神经网络已经在获取知识,并用这些知识进行基础推理。

自然语言处理展现了类似的抽象过程。核心来说,大多数现代NLP技术都使用了词嵌入。通过词嵌入,文本中的每个词都被转换成一个代表其含义的向量。在这个新空间中,语义相近的词(如“天气”和“预报”)彼此距离很近。通过这种方式,系统能把“今天天气如何?”和“获取未来24小时的预报”匹配成相同的意图。即使使用的词语不同,它们的含义是相近的。翻译也是类似的原理:先用词嵌入把输入的文本抽象成一个与语言无关的“思想”,再反向翻译成任何一种语言。

在这些例子中,认知是感知的一部分。但很多AI场景是纯粹的认知问题:它们不专注于感知周围的世界,而是专注于抽象这个世界,并基于这种抽象进行推理。

一些最基础的有监督学习方法就是如此。比如回归分析,它可以根据已知信息预测数值,例如根据房屋的特征和位置评估价值,或者根据历史数据预估销售额。分类则是根据物品自身的特征对其分级或归类,例如判断一栋房子是否会被某个特定买家购买。优化算法可以基于流程进行推理,从而最大化某个特定结果,例如在医院里分配资源。

推荐系统仅通过评分或购买历史,就能找出电影、书籍或歌曲等物品之间不为人知的共性。其他技术,如之前提到的聚类分析,也能发现数据中的模式,并以无监督的方式对物品分类。

我们在强化学习技术中也能看到认知的影子。2017年,微软蒙特利尔研究院的研究人员让一个系统在吃豆人游戏里突破了100万分大关。这个系统是通过玩数千把来自我训练的。

同样,2018年,OpenAI Five(一个由五个神经网络组成的团队)在Dota 2游戏里打败了人类职业队伍。它通过自我对战来训练,每天的训练量相当于人类玩180年。

最著名的例子,应该就是DeepMind的AlphaGo。它首次击败了九段围棋专业选手。相比国际象棋等游戏,围棋对计算机来说要困难得多。

仔细观察这些AI系统在游戏中的表现,你会发现它们展示出了认知的另一个特征——计划。它们能提前“思考”出最佳的长期策略,从而让分数最大化。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:弱人工智能的三种核心能力详解要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://m.elecfans.com/article/1479943.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-04 09:10
小米MiMo-V2系列模型2026年6月30日下线,Pro版已自动切换至V2.5

小米MiMo开放平台宣布,MiMo-V2系列的四款模型将于2026年6月30日正式下线,平台已推动开发者向V2 5系列迁移。具体涉及mimo-v2-pro、mimo-v2-omni、mimo-v2-flash和mimo-v2-tts模型。平台设置了系统替换时间作为缓冲:pro和omni模型于2026

AI热点2026-07-04 09:10
款长安猎手K50重庆车展上市14.19万起

2026重庆车展上,2026款长安猎手K50正式上市,共推出10款车型,售价14 19万至17 89万元。新车主要针对续航、电池和动力进行升级,搭载2 0T增程系统与双电机,纯电续航超180公里,快充仅需16分钟。全系标配30kW外放电功能,储备电量达239kWh,并新增山地与涉水模式,提升通过性。

AI热点2026-07-04 09:10
上期所与普陀区签战略协议深化金融区域联动

上海期货交易所与上海市普陀区人民政府于6月12日签署战略合作协议,旨在建立长期共赢的合作机制,共同服务上海国际金融中心与国际贸易中心的联动发展。双方高层领导均出席签约仪式,彰显了对此次合作的高度重视。协议聚焦于发挥期货市场专业资源与区域发展综合优势,深化务实合作,探索金融创新与实体经济深度融合,以期

AI热点2026-07-04 09:09
世纪华通平价大宗交易成交757万股 金额1.09亿元

6月12日,世纪华通发生一笔大宗交易,以每股14 37元的价格成交757 24万股,成交总额为1 09亿元。值得注意的是,该成交价与当日市场收盘价持平,属于平价交易。此次交易额占该股当日总成交额的1 51%。市场分析认为,平价成交反映了买卖双方对当前股价水平的共识,交易行为相对平稳,未对市场预期造成

延伸阅读