高效AI超级计算解决方案助力客户业务创新
Ian Finder,加速高性能计算基础架构高级项目经理 现在,用大规模AI模型来搞定各种任务的趋势,正在彻底改变AI的构建方式。在微软Build 2020上,Azure拿出了最先进的AI超级计算和一批支持下一代AI的新型大规模模型,正式亮出了“AI at Scale”的愿景。大规模模型的好处很直接
Ian Finder,加速高性能计算基础架构高级项目经理

现在,用大规模AI模型来搞定各种任务的趋势,正在彻底改变AI的构建方式。在微软Build 2020上,Azure拿出了最先进的AI超级计算和一批支持下一代AI的新型大规模模型,正式亮出了“AI at Scale”的愿景。大规模模型的好处很直接——只需要用AI超级计算,在海量数据上做一次大规模训练,然后这个模型就能自己“微调”,靠更小的数据集和资源去应对不同任务、不同领域。模型参数越多,越能抓住数据之间的细微差别。比如微软的T-NLG(Turing Natural Language Generation)模型,170亿参数,能理解语言,第一次见到一份文件就能直接回答问题或做摘要。这类自然语言模型,比一年前最先进的模型大得多,跟早期以图像为中心的模型比起来,更是大了好几个数量级。如今它们已经在Bing、Word、Outlook和Dynamics里干活了。
要训练这种规模的模型,可不是一台机器能搞定的——需要把几百台配有专用AI翻跟斗的机器连成一个大集群,通过机器内部和机器之间的高带宽网络互相通信。为了让微软所有产品都具备全新的自然语言生成和理解能力,也为了支撑OpenAI“建立安全的通用AI”的使命,Azure持续在内部构建这样的集群。最新的集群算力强得惊人,直接被称为AI超级计算机,其中一台专为OpenAI打造,已经挤进全球前五大公开发布的超级计算机。正是靠这台超算,OpenAI在5月发布了1750亿参数的GPT-3模型,这个模型能做各种没专门训练过的任务,比如写诗、翻译,甚至不需要额外调优。
管理这些大规模集群的方法,加上领先的网络设计和软件堆栈(比如Azure机器学习、ONNX运行时和其他Azure AI服务),跟AI at Scale战略是一脉相承的。一路创新的成果,让Azure能更好地满足客户不同规模的AI需求。举个例子,在NDv2虚拟机系列中,Azure是第一个、也是唯一一个提供NVIDIA V100 Tensor Core GPU虚拟机集群的公有云,这些集群通过高带宽、低延迟的NVIDIA Mellanox InfiniBand网络互连。这种创新,就像把顶级赛车领域开创的技术用到了日常驾驶的普通汽车上。
前沿创新规模空前
OpenAI首席执行官Sam Altman说过:“若要把AI发展成通用智能,就需要强大的系统来训练越来越强的模型。现在我们终于有了所需的算力。Azure AI及其超算能力提供了领先的系统,让我们能加速创新。”
通过持续发力,Azure推出了全新的ND A100 v4虚拟机系列——这是目前为止功能最猛、扩展性最强的AI虚拟机。这套方案能根据需求,通过数百台虚拟机调用八个到数千个互连的NVIDIA GPU。
最基础的ND A100 v4虚拟机由一台虚拟机和八个NVIDIA Ampere A100 Tensor Core GPU组成。但就像人脑由神经元互联一样,ND A100 v4集群可以扩展到数千个GPU,每台虚拟机拥有1.6 TB互连带宽——这个规模以前根本不敢想。每个GPU都有专属的200 GB/s NVIDIA Mellanox HDR InfiniBand连接,兼容所有拓扑结构。数十、数百甚至数千个GPU都能连到同一个Mellanox InfiniBand HDR集群上一起干活,无论什么级别的AI目标都能实现。因为专用GPU互连带宽比其他任何公有云产品高16倍,所以从零开始训练模型、用自己的数据继续训练或者针对特定任务微调,都能更快搞定。
ND A100 v4虚拟机系列由内置全新Azure AMD Rome的平台提供支持,所有主要系统组件都符合最新的硬件标准,比如PCIe Gen4。PCIe Gen 4加上NVIDIA第三代NVLINK架构,为每台虚拟机实现了最快的GPU互连,数据在系统中的传输速度提升了2倍以上。
大多数客户不需要做任何技术调整,就能把计算性能提升到基于上一代NVIDIA V100 GPU系统的2至3倍。如果客户用上全新A100的结构化稀疏加速、高精度Tensor Core核心和多实例GPU(MIG)功能,性能甚至能提高20倍。
NVIDIA加速计算总经理兼副总裁Ian Buck评价说:“Azure利用NVIDIA最先进的计算和网络功能,构建了一个令人难以置信的大型云端AI平台。它的弹性架构,能把NVIDIA A100 GPU上的单一分区扩展到数千个通过NVIDIA Mellanox InfiniBand互连的A100 GPU。有了这种弹性,Azure客户可以运行全球最高要求的AI工作负载。”
ND A100 v4虚拟机系列利用了Azure核心的扩展模块,比如VM Scale Set,可以自动、动态、透明地配置任何规模的集群,让所有人都能随时随地实现各种规模的AI,甚至几分钟内就能按需创建一台AI超级计算机。之后用Azure机器学习服务,就能独立访问虚拟机,或者启动并管理整个集群的训练任务。
ND A100 v4虚拟机系列和集群目前已经开放预览,很快会成为Azure产品组合中的标准选项,让所有人都在云端挖掘AI at Scale的潜力。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:高效AI超级计算解决方案助力客户业务创新要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在招聘这个行业中,数据录入的繁琐程度相信大家都有切身体会。每天需要从各类网页、社交平台、招聘站点中搜寻候选人信息,再手动一条条录入系统,既耗时费力又容易出错。今天要介绍的这款Kwal Chrome插件,正是为了彻底解决这一痛点而设计的。什么是 Kwal Chrome 扩展程序 插件?该插件的定位十分
网红经济正在进化——Twinning AI带来的玩法是:粉丝可以直接跟你的人工智能分身聊天,而你,每次互动都能收到真金白银。它集成了专业的声音克隆、文本和语音消息,以及数据分析能力,让粉丝互动变得既有趣又能变&现。 什么是Twinning AI? 简单来说,Twinning AI允许网红创建一个属于
在跨境电商和全球业务快速发展的今天,发票与财务管理工具的重要性日益凸显。AI技术的加入,让这些原本繁琐的流程实现了质的飞跃。Invoicemint 正是这样一款专注全球企业的智能发票与财务管理软件——它不只是一个简单的发票生成器,而是一套覆盖从开票、对账到税务合规、催款的全链路解决方案。 什么是In
想象一下,你随时都能找到一个倾听者——不带任何偏见,不会感到疲惫,而且完全匿名。这听起来像科幻小说里的情节,但现在已经成为现实。MyWhy 就是这样一款 AI 心理治疗应用,它将专业的情感支持装进你的口袋,让心理健康服务不再是奢侈品,而是像打开手机一样触手可及。什么是MyWhy?简单来说,MyWhy
- 日榜
- 周榜
- 月榜
热点快看
