一文详解人工智能的三大关键能力
人工智能与机器能力的分水岭:人类智慧与机器学习的边界 人类智慧的广度,远超当前任何机器所能触及的范围。抽象问题求解、概念生成、情绪洞察、创造力甚至自我认知——在这些领域,即便最强大的深度学习算法,也还在蹒跚学步。能把所有这些认知能力整合到一台机器中,并应对各类通用场景的,才是真正的通用人工智能。而目
人工智能与机器能力的分水岭:人类智慧与机器学习的边界
人类智慧的广度,远超当前任何机器所能触及的范围。抽象问题求解、概念生成、情绪洞察、创造力甚至自我认知——在这些领域,即便最强大的深度学习算法,也还在蹒跚学步。能把所有这些认知能力整合到一台机器中,并应对各类通用场景的,才是真正的通用人工智能。而目前,通用人工智能还停留在理论层面。
不过,今天的技术在执行特定类型任务时,已经取得了令人瞩目的突破——这些任务过去曾高度依赖人类智力。这种人工智能被称为狭义人工智能或弱人工智能,它主要聚焦于三种核心能力:学习、感知和认知。

▲AI能力备忘单:上图概述了本文介绍的AI核心能力。
在与客户交流时,他们总在问:“这个东西真的能落地吗?”在这个AI被过度炒作的时代,确实很难分清哪些是幻想,哪些是现实——哪些是实际能力,哪些只是营销表演。但可以肯定的是,所有这些能力在今天都是真实存在的。成千上万的公司正在用AI进行业务转型。关注未来的可能性固然重要,但你更需要了解现在的AI能做些什么。
01 学习:无需显式编程的机器学习

▲学习——无需显式编程的学习
机器学习的首要特征,就是能随时间学习,而且不需要明确编程。和人类一样,机器学习算法通过探索与实践来学习,而不是遵循一步步的指令——当然,有些读者是父母,你们可能不希望孩子这么学。
算法按照学习方式分类。当下最流行、在企业中90%的时间可能都会用到的,是有监督学习。它使用包含输入和期望输出的数据集。通过迭代优化,算法找到能建模输入与输出关系的函数。这个模型随后被应用到新的输入上,预测对应的输出。
找到正确的算法和参数,一半靠科学,一半靠创造力和直觉。如何将机器学习本身应用于这个过程,本身就是个研究课题——这就是自动化机器学习(AutoML)。
所有有监督学习算法都有一个共同的缺陷:它们需要大量数据。而且不是任何数据都行——必须是同时包含输入和对应输出的训练数据,也就是标记数据。
有时,我们手头就有已标记的历史数据,比如客户流失模型——我们可以查看流失客户的历史,以及他们的历史交互,作为训练数据的输出部分。通过正确的算法,仅凭一系列交互,就能预测未来的客户流失。
但有时候,数据并没有被标记。这时无监督学习算法就派上了用场——它处理一组没有标记的数据,自己找出结构。聚类算法是最流行的无监督方法之一,它通过不同技术,在数据中发现共性并分组。你可以用它来细分客户群或网页访问者。
其他常见的无监督学习算法包括关联规则(定义数据间的关联,比如购买某种产品的用户还会对其他产品感兴趣)和异常检测(找出数据中罕见或可疑的部分)。
还有另一种情况:完全不使用训练数据。想想人们怎么学会玩视频游戏?有监督的方法是观看成千上万的游戏视频——这确实是一些YouTube播主的商业模式,但我觉得这种方式极度枯燥。更有趣的方法是直接上手玩:在玩的过程中,做对了(比如得分)就获得正向强化,做错了(比如被杀死)就获得负向强化。这就是强化学习算法的工作原理:通过探索环境并强化正确的行为来学习。
强化学习因为不需要数据,在商业上极具前途。它特别适合自动化系统——无论是移动的(车辆、无人机)还是静止的(空调、电力系统),也能应用于复杂的业务流程。通常,强化学习被认为是AI中最困难的学科。
02 感知:如何解释周边世界

▲感知——解释周边世界
如果说有哪个领域曾被认为是人类独有,那就是感知了。几十年来,我们尝试模仿人类感知周围世界的能力,却鲜有成功。理解一幅图画或将语音转文字,复杂到几乎无法用编程实现——试试用一步步指令定义图片里的一匹马?
机器学习算法更适合这类问题。不过,传统机器学习在感知任务中的准确性与人类相距甚远——我依然记得在Windows Vista上演示语音识别的场景……那件事教会我做更坚强的人。
以图像分类为例。ImageNet是最著名的图像分类挑战。自2010年起,全球参与者提交算法来创建最精准的模型。竞赛初期(2010年),较好的误差率大约25%。作为对比,人类在同一数据集上的误差约为5.1%。
2012年,多伦多大学学生Alex Krizhevsky提交了一个8层神经网络——AlexNet。它一举击败所有对手,达到15.3%的误差率,比第二名低了整整10个百分点。随后几年,这项技术被不断改进,网络层数增加。到2014年,22层的GoogLeNet达到6.7%的误差率。2015年,微软研究院团队使用全新神经网络技术,深度达到惊人的152层,误差率仅为3.57%——首次超越人类表现。
深度学习永久改变了计算机视觉。如今,这项技术几乎被用于所有高精度视觉场景,成为企业中最常见的AI用例。以下是计算机视觉在当今的典型应用:
- 为图像内容分类(影像分类)
- 识别图像中的多个物体及其边界(物体检测)
- 识别场景或行为(如工作场所的不安全状况,或零售店的补货)
- 检测人脸、识别身份,甚至辨识情绪
- 识别手写文本(光学字符识别)
- 鉴别图像或视频中的攻击性行为
研究员Harold Stolovitch和Erica Keeps在其著作《Telling Ain’t Training》中断言,我们获取的信息中83%来自视觉,11%来自听觉——两者合计占了94%。难怪音频处理是AI另一个重点关注领域,仅次于计算机视觉。
相似的深度学习技术可以应用于音频信号,帮助计算机识别声音。你可以用它区分鸟类的歌声,或通过风力涡轮机的声音预测故障。
但AI在音频处理中最激动人心的还是语音识别。用于语音识别的经典数据集是Switchboard,包含约260小时电话交谈录音。人类的转录误差率为5.9%。2016年,微软研究院用神经网络追平了这个水平;一年后,他们以5.1%的误差率超越了人类。有史以来第一次,机器可以比人类更好地理解人类。
这些突破不仅让机器更懂我们,还让机器能用自然的方式与我们交流。2018年,Azure上线了基于深度学习的文字转语音服务,能合成出与真人无异的人声。
这些能力结合,催生了计算机科学的圣杯:全自然用户接口(NUI)。机器既能看见和理解人类,又能用自然语言交流——听起来像科幻电影。但这是真的吗?要与计算机进行有意义交流,它不仅要转录我们的话,还要理解话里的意思。
自然语言处理(NLP)正是分析、理解并提取含义的领域。最常见的场景之一是语言理解,现代会话型AI(如数字助理)就是基于它。当你问Siri、Alexa或Cortana天气时,系统先将语音转成文字,再通过自然语言理解模型抽取意图,最后映射到相应输出(比如提供当地天气信息)。
NLP技术在过去几年中飞速发展。有些任务相对简单,比如情感分析、关键字抽取或实体识别;有些则极其复杂,比如文本归纳或翻译。2018年,微软机器翻译团队首次在自动翻译上达到人类水平——这是一个曾被一度认为不可能实现的任务。
自然语言理解最激动人心的应用之一是机器阅读理解。2018年1月,微软亚洲研究院团队使用斯坦福问答数据集(SQuAD)达到人类水平——实际上,在针对一组维基百科文章的开放性问题中,系统给出了比人类更好的答案。许多公司加入其中,推动了这一领域的发展。
即便如此,这些系统仍未达到人类的抽象层次。问答算法在核心上只是搜索文本线索来定位正确答案。人类也会这样做(特别是匆忙时),但当我们真正想理解文字时,我们会抽取知识、进行概括,使其更易理解。想象一段描述加利福尼亚的文字。人类会从中归纳出“加利福尼亚”这个实体,并赋予属性(人口、面积)甚至关系(邻州、长官)。归纳后,我们不再需要原文来回答问题——我们已经概括了相关知识。
AI中与此对应的过程是知识抽取,对企业意义深远。通过这些技术,我们可以从混沌、无序的信息中抽取高阶概念,构建知识图,从而回答关于数据产业的整体问题,并浏览和理解信息。这种抽象水平远超传统NLP,更接近我们所说的认知。
03 认知:基于数据进行推理

▲认知——基于数据进行推理
严格来说,认知是获取和处理知识的能力,包括人脑用于推理、理解、解决问题、计划和决策的高层次概念。我们前面探索的技术其实包含了一定程度的认知,尽管有时不那么明显。以图像分类为例,仔细审视深度神经网络,就能看出它是如何在每一层将问题分解为更小的步骤的。没有人工干预,神经网络自动展示某种概括:第一层检测简单特征(边缘或纹理),往深层走,每一层都能抽取更复杂属性(图案或元素)。某种意义上,神经网络已经能获取知识并做基础推理。
自然语言处理也展示了类似的内在抽象。大多数现代NLP技术都使用了词嵌入——每个词被转换为一个代表含义的向量。在这个新空间里,语义相似的词(如“天气”和“预报”)彼此靠近。通过这种方式,系统会将“今天天气如何?”和“获取未来24小时预报”匹配为相同意图。即使词不同,含义相似,因为它们语义相近。翻译也是如此:翻译技术用词嵌入抽象输入文本,将其转换为与语言无关的“想法”,再用反向流程翻译成任意语言。
在这些例子中,认知是感知的内在部分。但许多AI场景是纯粹的认知——它们不专注于感知世界,而是专注于抽象世界并基于抽象进行推理。一些最基础的有监督学习方法就是如此:回归分析根据现有信息预测数值(如房价评估),分类根据特征对物品分级(如判断房屋是否会卖给某买家),优化算法基于流程推理来最大化结果(如医院资源分配)。
推荐系统仅通过评分或购买习惯就能找出物品间不为人知的共性。聚类分析能找出数据中的模式,以无监督方式归类。而在强化学习中也能看到认知能力:2017年,蒙特利尔微软研究院团队在吃豆人游戏中跨越了100万分大关;2018年,OpenAI Five(五个神经网络组成的团队)在Dota2中击败人类队伍;最著名的例子是Google DeepMind的AlphaGo,首次击败9段围棋职业选手——围棋被认为比象棋更难。
深入观察这些AI系统参与的游戏,你会发现它们展现出了认知的另一种特征——计划。系统能提前“思考”最佳方式来长期最大化分数。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:一文详解人工智能的三大关键能力要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点LucidaAI是一款面向企业的AI英语口语教练,通过实时对话提供发音、语法、词汇和流利度的个性化反馈。采用端到端加密并支持合规定制,定价策略注重普及化,旨在以低成本提升团队英语沟通能力。
Screenshot2Code工具能够从截图中自动识别代码,并将其转换为可直接运行的代码。支持Python、HTML及API接口信息提取,帮助开发者快速复用他人分享的代码片段,从而显著提升工作效率。这个工具极大简化了代码复用过程。
SpeakStruct通过可自定义模板将语音转换为结构化数据,适用于会议记录、客户通话等场景。核心功能包括自定义模板、准确转录和随处捕捉,使口语信息直接转化为可用的数据资产。
IzzyAI是一款AI驱动的语音治疗应用,提供全天候服务。通过智能治疗师头像互动,系统评估并治疗五种常见语音语言障碍,融合语音与面部识别技术给予实时反馈。内置综合评估、个性化练习、进展报告及支持性社区,提升治疗效果。
- 日榜
- 周榜
- 月榜
热点快看
