人工智能技术发展 下一代人工智能更强大
人工智能领域涵盖的内容极为广泛——从图像识别、自然语言处理到机器人技术,几乎无所不包。而这一领域的发展速度往往令人惊讶,以至于很难完全跟上最新的进展,这已成为许多从业者面临的现实挑战。 可以预见,越来越多企业会主动联系其IT供应商,希望借助专业力量开发并部署最契合自身需求的AI解决方案。联想公司高级
人工智能领域涵盖的内容极为广泛——从图像识别、自然语言处理到机器人技术,几乎无所不包。而这一领域的发展速度往往令人惊讶,以至于很难完全跟上最新的进展,这已成为许多从业者面临的现实挑战。

可以预见,越来越多企业会主动联系其IT供应商,希望借助专业力量开发并部署最契合自身需求的AI解决方案。联想公司高级人工智能数据科学家大卫·埃里森正是从事此类工作——他不仅要为客户引入前沿AI技术,还要在公司内部统筹联想全球数据中心集团的AI战略。根据埃里森的介绍,今年及未来一段时期,AI的主要趋势将集中在三大方向:基于计算机视觉的应用、用于训练AI模型的数据生成与标记算法开发,以及基于转换模型的自然语言处理技术的迅猛发展。
在计算机视觉领域,开发者和研究人员正尝试将该能力与AI其他分支(例如机器人技术,或自动为图片生成字幕等自然语言处理应用)相结合。背后一个重要原因是,计算机视觉中一些基础性难题依然难以攻克,研究人员正在探索新的突破路径,而非单纯在原有方向上硬碰硬。
埃里森直接点明了问题核心:“我认为我们在解决一些核心的计算机视觉任务时遇到了障碍,比如3D投影。当你看到一张建筑二维图像时,人脑可以将其推断为三维形状,但机器很难做到这一点。虽然已有大量研究,但这仍是一个尚未解决的根本性问题。我认为研究人员会感到挫败,进而尝试新方法,或尝试将计算机视觉与其他领域结合,以寻找更佳的应用场景。”
这或许也解释了为何机器人技术目前是最热门的研究方向之一——因为它为AI提供了明确的应用目标。例如,让AI借助视觉感知在环境中安全移动,无论是工厂车间里的机械臂,还是依靠AI导航抵达目的地的自动驾驶汽车。这里存在一个关键瓶颈:数据集需要大量人工标注数据。因此,越来越多的研究聚焦于自我监督算法,使计算机能够自动为已有数据打上标签。
埃里森举例说明:“一个典型场景是配备计算机视觉和接近传感器的机器人。计算机视觉能够比接近传感器看得更远。但当机器人向前移动时,视觉中捕捉到的物体最终会出现在近距离传感器中。”利用传感器数据,可以回溯到物体第一次被检测到的时间点,并自动为其添加标签。
AI系统一旦部署到真实环境中,很可能会遇到训练数据中未曾出现过的情况,这被称为“边缘案例”。如果这些边缘情况属于真实应用场景,开发人员必须认真对待,确保AI模型能够正确处理。埃里森提到自动驾驶:“你的数据集中有多少次出现在昏暗暴风雪中驾车上山的场景?坦白说,这类数据极少,因此本质上必须通过模拟数据来解决。”
换言之,处理边缘案例主要依赖合成数据,通过生成模型等方法生成。但这又带来一个新问题:数据科学家如何保证合成数据能够准确反映AI在现实世界中会遇到的情况?埃里森承认这确实至关重要,目前的做法是尽可能多地生成数据,期望覆盖更多潜在用例。同时,也会采用神经网络自动编码器或更复杂的生成对抗网络(GANs)——其中一个网络负责生成合成数据,另一个网络负责判别数据质量。埃里森解释说:“这是一种自我训练,用来模拟出足够真实的场景。你同时训练两个神经网络,一个生成示例,一个判断示例,期望最终得到更接近真实世界的结果。”
GANs的一个经典应用是“深度伪造”技术,能够生成逼真的人脸,或者修改视频让其中的人物仿佛在说另一段话。这足以证明此类模型已相当复杂。不过,基于转换的深度学习模式才是过去几年自然语言处理领域最大的赢家。埃里森相信,这些模型将继续占据主导地位。因为Transformer已经进化到能够识别句子之间的依赖与连接,而之前的循环神经网络(RNN)本质上是串行的,往往会忽略单词的上下文信息。
埃里森进一步解释:“一个带有多个隐藏传感器的Transformer,会加上规范化层和前馈层,但它没有RNN那种会拖慢处理速度的反馴机制,因此能够看到更大的上下文范围。”这直接影响了模型理解含义的能力。算法很难在两个句子之间实现跨越式推理,而传统的RNN在识别多个句子中的同一实体时,确实存在这种局限。
这种架构使得Transformer在众多近期热门的NLP模型中扮演关键角色,例如谷歌的BERT、OpenAI的GPT-2、Facebook的RoBERTa以及微软的MT-DNN。这些模型在文档分类、情感分析、问题回答和句子相似度等任务上,都展现出巨大潜力。值得注意的是,这正是当前AI技术迭代最快、成果最密集的方向之一。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:人工智能技术发展 下一代人工智能更强大要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。
Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。
一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。
专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。
- 日榜
- 周榜
- 月榜
热点快看
