数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

一文详解人工智能的三大关键能力

AI热点日报时间：2026-07-03

热点解读

人工智能与机器能力的分水岭：人类智慧与机器学习的边界人类智慧的广度，远超当前任何机器所能触及的范围。抽象问题求解、概念生成、情绪洞察、创造力甚至自我认知——在这些领域，即便最强大的深度学习算法，也还在蹒跚学步。能把所有这些认知能力整合到一台机器中，并应对各类通用场景的，才是真正的通用人工智能。而目

人工智能与机器能力的分水岭：人类智慧与机器学习的边界

人类智慧的广度，远超当前任何机器所能触及的范围。抽象问题求解、概念生成、情绪洞察、创造力甚至自我认知——在这些领域，即便最强大的深度学习算法，也还在蹒跚学步。能把所有这些认知能力整合到一台机器中，并应对各类通用场景的，才是真正的通用人工智能。而目前，通用人工智能还停留在理论层面。

不过，今天的技术在执行特定类型任务时，已经取得了令人瞩目的突破——这些任务过去曾高度依赖人类智力。这种人工智能被称为狭义人工智能或弱人工智能，它主要聚焦于三种核心能力：学习、感知和认知。

▲AI能力备忘单：上图概述了本文介绍的AI核心能力。

在与客户交流时，他们总在问：“这个东西真的能落地吗？”在这个AI被过度炒作的时代，确实很难分清哪些是幻想，哪些是现实——哪些是实际能力，哪些只是营销表演。但可以肯定的是，所有这些能力在今天都是真实存在的。成千上万的公司正在用AI进行业务转型。关注未来的可能性固然重要，但你更需要了解现在的AI能做些什么。

01 学习：无需显式编程的机器学习

▲学习——无需显式编程的学习

机器学习的首要特征，就是能随时间学习，而且不需要明确编程。和人类一样，机器学习算法通过探索与实践来学习，而不是遵循一步步的指令——当然，有些读者是父母，你们可能不希望孩子这么学。

算法按照学习方式分类。当下最流行、在企业中90%的时间可能都会用到的，是有监督学习。它使用包含输入和期望输出的数据集。通过迭代优化，算法找到能建模输入与输出关系的函数。这个模型随后被应用到新的输入上，预测对应的输出。

找到正确的算法和参数，一半靠科学，一半靠创造力和直觉。如何将机器学习本身应用于这个过程，本身就是个研究课题——这就是自动化机器学习（AutoML）。

所有有监督学习算法都有一个共同的缺陷：它们需要大量数据。而且不是任何数据都行——必须是同时包含输入和对应输出的训练数据，也就是标记数据。

有时，我们手头就有已标记的历史数据，比如客户流失模型——我们可以查看流失客户的历史，以及他们的历史交互，作为训练数据的输出部分。通过正确的算法，仅凭一系列交互，就能预测未来的客户流失。

但有时候，数据并没有被标记。这时无监督学习算法就派上了用场——它处理一组没有标记的数据，自己找出结构。聚类算法是最流行的无监督方法之一，它通过不同技术，在数据中发现共性并分组。你可以用它来细分客户群或网页访问者。

其他常见的无监督学习算法包括关联规则（定义数据间的关联，比如购买某种产品的用户还会对其他产品感兴趣）和异常检测（找出数据中罕见或可疑的部分）。

还有另一种情况：完全不使用训练数据。想想人们怎么学会玩视频游戏？有监督的方法是观看成千上万的游戏视频——这确实是一些YouTube播主的商业模式，但我觉得这种方式极度枯燥。更有趣的方法是直接上手玩：在玩的过程中，做对了（比如得分）就获得正向强化，做错了（比如被杀死）就获得负向强化。这就是强化学习算法的工作原理：通过探索环境并强化正确的行为来学习。

强化学习因为不需要数据，在商业上极具前途。它特别适合自动化系统——无论是移动的（车辆、无人机）还是静止的（空调、电力系统），也能应用于复杂的业务流程。通常，强化学习被认为是AI中最困难的学科。

02 感知：如何解释周边世界

▲感知——解释周边世界

如果说有哪个领域曾被认为是人类独有，那就是感知了。几十年来，我们尝试模仿人类感知周围世界的能力，却鲜有成功。理解一幅图画或将语音转文字，复杂到几乎无法用编程实现——试试用一步步指令定义图片里的一匹马？

机器学习算法更适合这类问题。不过，传统机器学习在感知任务中的准确性与人类相距甚远——我依然记得在Windows Vista上演示语音识别的场景……那件事教会我做更坚强的人。

以图像分类为例。ImageNet是最著名的图像分类挑战。自2010年起，全球参与者提交算法来创建最精准的模型。竞赛初期（2010年），较好的误差率大约25%。作为对比，人类在同一数据集上的误差约为5.1%。

2012年，多伦多大学学生Alex Krizhevsky提交了一个8层神经网络——AlexNet。它一举击败所有对手，达到15.3%的误差率，比第二名低了整整10个百分点。随后几年，这项技术被不断改进，网络层数增加。到2014年，22层的GoogLeNet达到6.7%的误差率。2015年，微软研究院团队使用全新神经网络技术，深度达到惊人的152层，误差率仅为3.57%——首次超越人类表现。

深度学习永久改变了计算机视觉。如今，这项技术几乎被用于所有高精度视觉场景，成为企业中最常见的AI用例。以下是计算机视觉在当今的典型应用：

为图像内容分类（影像分类）
识别图像中的多个物体及其边界（物体检测）
识别场景或行为（如工作场所的不安全状况，或零售店的补货）
检测人脸、识别身份，甚至辨识情绪
识别手写文本（光学字符识别）
鉴别图像或视频中的攻击性行为

研究员Harold Stolovitch和Erica Keeps在其著作《Telling Ain’t Training》中断言，我们获取的信息中83%来自视觉，11%来自听觉——两者合计占了94%。难怪音频处理是AI另一个重点关注领域，仅次于计算机视觉。

相似的深度学习技术可以应用于音频信号，帮助计算机识别声音。你可以用它区分鸟类的歌声，或通过风力涡轮机的声音预测故障。

但AI在音频处理中最激动人心的还是语音识别。用于语音识别的经典数据集是Switchboard，包含约260小时电话交谈录音。人类的转录误差率为5.9%。2016年，微软研究院用神经网络追平了这个水平；一年后，他们以5.1%的误差率超越了人类。有史以来第一次，机器可以比人类更好地理解人类。

这些突破不仅让机器更懂我们，还让机器能用自然的方式与我们交流。2018年，Azure上线了基于深度学习的文字转语音服务，能合成出与真人无异的人声。

这些能力结合，催生了计算机科学的圣杯：全自然用户接口（NUI）。机器既能看见和理解人类，又能用自然语言交流——听起来像科幻电影。但这是真的吗？要与计算机进行有意义交流，它不仅要转录我们的话，还要理解话里的意思。

自然语言处理（NLP）正是分析、理解并提取含义的领域。最常见的场景之一是语言理解，现代会话型AI（如数字助理）就是基于它。当你问Siri、Alexa或Cortana天气时，系统先将语音转成文字，再通过自然语言理解模型抽取意图，最后映射到相应输出（比如提供当地天气信息）。

NLP技术在过去几年中飞速发展。有些任务相对简单，比如情感分析、关键字抽取或实体识别；有些则极其复杂，比如文本归纳或翻译。2018年，微软机器翻译团队首次在自动翻译上达到人类水平——这是一个曾被一度认为不可能实现的任务。

自然语言理解最激动人心的应用之一是机器阅读理解。2018年1月，微软亚洲研究院团队使用斯坦福问答数据集（SQuAD）达到人类水平——实际上，在针对一组维基百科文章的开放性问题中，系统给出了比人类更好的答案。许多公司加入其中，推动了这一领域的发展。

即便如此，这些系统仍未达到人类的抽象层次。问答算法在核心上只是搜索文本线索来定位正确答案。人类也会这样做（特别是匆忙时），但当我们真正想理解文字时，我们会抽取知识、进行概括，使其更易理解。想象一段描述加利福尼亚的文字。人类会从中归纳出“加利福尼亚”这个实体，并赋予属性（人口、面积）甚至关系（邻州、长官）。归纳后，我们不再需要原文来回答问题——我们已经概括了相关知识。

AI中与此对应的过程是知识抽取，对企业意义深远。通过这些技术，我们可以从混沌、无序的信息中抽取高阶概念，构建知识图，从而回答关于数据产业的整体问题，并浏览和理解信息。这种抽象水平远超传统NLP，更接近我们所说的认知。

03 认知：基于数据进行推理

▲认知——基于数据进行推理

严格来说，认知是获取和处理知识的能力，包括人脑用于推理、理解、解决问题、计划和决策的高层次概念。我们前面探索的技术其实包含了一定程度的认知，尽管有时不那么明显。以图像分类为例，仔细审视深度神经网络，就能看出它是如何在每一层将问题分解为更小的步骤的。没有人工干预，神经网络自动展示某种概括：第一层检测简单特征（边缘或纹理），往深层走，每一层都能抽取更复杂属性（图案或元素）。某种意义上，神经网络已经能获取知识并做基础推理。

自然语言处理也展示了类似的内在抽象。大多数现代NLP技术都使用了词嵌入——每个词被转换为一个代表含义的向量。在这个新空间里，语义相似的词（如“天气”和“预报”）彼此靠近。通过这种方式，系统会将“今天天气如何？”和“获取未来24小时预报”匹配为相同意图。即使词不同，含义相似，因为它们语义相近。翻译也是如此：翻译技术用词嵌入抽象输入文本，将其转换为与语言无关的“想法”，再用反向流程翻译成任意语言。

在这些例子中，认知是感知的内在部分。但许多AI场景是纯粹的认知——它们不专注于感知世界，而是专注于抽象世界并基于抽象进行推理。一些最基础的有监督学习方法就是如此：回归分析根据现有信息预测数值（如房价评估），分类根据特征对物品分级（如判断房屋是否会卖给某买家），优化算法基于流程推理来最大化结果（如医院资源分配）。

推荐系统仅通过评分或购买习惯就能找出物品间不为人知的共性。聚类分析能找出数据中的模式，以无监督方式归类。而在强化学习中也能看到认知能力：2017年，蒙特利尔微软研究院团队在吃豆人游戏中跨越了100万分大关；2018年，OpenAI Five（五个神经网络组成的团队）在Dota2中击败人类队伍；最著名的例子是Google DeepMind的AlphaGo，首次击败9段围棋职业选手——围棋被认为比象棋更难。

深入观察这些AI系统参与的游戏，你会发现它们展现出了认知的另一种特征——计划。系统能提前“思考”最佳方式来长期最大化分数。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：一文详解人工智能的三大关键能力要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://m.elecfans.com/article/1468752.html

人工智能

上一篇：人工智能助力企业成功的关键方法

下一篇：AI视觉算法商城极视角获C1轮融资

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。