云服务与OEM厂商借助NVIDIA AI技术使得训练更上层楼
MLPerf 基准测试最新成绩正式揭晓——戴尔、浪潮、Microsoft Azure 与 Supermicro 借助 NVIDIA AI 平台,在 AI 模型快速训练方面刷新了世界纪录。没错,这些厂商在今日发布的 MLPerf 训练 1 1 版本中,均跑出了令人瞩目的训练速度。 在本次公布的八项热门
MLPerf 基准测试最新成绩正式揭晓——戴尔、浪潮、Microsoft Azure 与 Supermicro 借助 NVIDIA AI 平台,在 AI 模型快速训练方面刷新了世界纪录。没错,这些厂商在今日发布的 MLPerf 训练 1.1 版本中,均跑出了令人瞩目的训练速度。
在本次公布的八项热门工作负载里,NVIDIA 平台无一例外地拿下了最快训练速度的桂冠。更值得关注的是,这是 Azure 首次亮相 MLPerf 训练基准测试,一出手便凭借 NDm A100 v4 实例冲到了领先位置。

图示:新一轮测试中,NVIDIA AI 训练所有模型的速度均优于其他替代方案。
谈及性能核心的 GPU,NVIDIA A100 Tensor Core GPU 依然是每芯片性能的冠军。在系统层面,NVIDIA 基于模块化 DGX SuperPOD 架构搭建的 Selene 超级计算机,配合 InfiniBand 网络及自有软件栈,将 A100 的潜力完全释放,实现了整个测试中最快的 AI 训练速度。

图示:NVIDIA A100 GPU 在全部八项 MLPerf 1.1 测试中均实现了最佳的每芯片训练性能。
云服务性能再攀高峰
从本次结果来看,Azure 的 NDm A100 v4 实例在 AI 模型训练方面表现极为亮眼。它参与了所有测试项目,并将规模扩展至 2048 个 A100 GPU。性能强悍是一方面,更关键的是,Azure 已在美国六个区域开放租用,普通用户也能直接体验到这种级别的算力。
AI 训练本身就是一项投入巨大的工程,NVIDIA 的意图非常明确——无论用户选择哪种云服务或本地系统,都能以破纪录的速度完成模型训练。为此,NVIDIA 将自身 AI 技术与云服务、托管数据中心、企业级以及科学计算中心的产品进行了深度整合。
服务器制造商各显神通
在 OEM 阵营中,浪潮凭借八路 GPU 服务器 NF5688M6 和液冷服务器 NF5488A5,在单节点性能上斩获了最多纪录。戴尔和 Supermicro 则在四路 A100 GPU 系统上创下了新成绩。本次共有 10 家 NVIDIA 合作伙伴提交了结果,包括 8 家 OEM 和 2 家云服务商,占总提交量的 90% 以上。这是 NVIDIA 生态系统在 MLPerf 训练测试中的第五次登场,也是迄今为止表现最亮眼的一次。
合作伙伴如此积极,是因为 MLPerf 是目前唯一经过同行评审、符合行业标准的 AI 训练与推理基准。对客户而言,它是评估 AI 平台和供应商的可靠工具。
通过认证的服务器保障速度
百度 PaddlePaddle、戴尔科技、富士通、技嘉科技、慧与、浪潮、联想和 Supermicro 都提交了基于本地数据中心的结果(包括单节点和多节点任务)。值得注意的是,几乎所有的 OEM 合作伙伴都是在 NVIDIA 认证系统上运行的测试——这套认证体系专门为需要加速计算的企业客户验证了服务器硬件。
提交结果的广泛性,充分体现了 NVIDIA 平台的广度与成熟度。无论是小型创业公司还是大型企业,都能找到适合自己的方案。
快速且灵活兼备
在所有参与方中,NVIDIA AI 是唯一一个提交了全部八个基准测试和所有用例的平台。这背后反映的是平台的通用性:既能处理计算机视觉、自然语言处理,也能应对推荐系统和增强学习。快速而灵活的系统,正是客户追求的生产力保障。
透明与客观是 MLPerf 的底色,用户完全可以依据结果做出明智的购买决策。这一行业基准组织成立于 2018 年 5 月,得到了阿里巴巴、ARM、Google、Intel 和 NVIDIA 等数十家公司的支持。
三年性能跃升 20 倍
回顾数据,一切不言自明。仅在过去 18 个月里,NVIDIA A100 GPU 的性能就提升了 5 倍以上——这完全归功于软件的持续创新。自三年前 MLPerf 首次亮相以来,NVIDIA 的性能已提升超过 20 倍。如此大幅度的加速,源自 GPU、网络、系统到软件的全栈进步。

图示:NVIDIA AI 在三年的时间里实现了超过 20 倍的性能改进。
持续深耕软件优化
软件优化是本次成绩背后的核心驱动力之一。举例来说,通过采用一类新型内存复制操作,NVIDIA 在针对医学成像的 3D-UNet 基准测试中实现了 2.5 倍的操作加速。在物体检测的 Mask R-CNN 测试中,优化 GPU 并行处理方式带来了 10% 的速度提升;而在推荐系统测试中,这一数字达到 27%。
具体方法并不复杂:将独立操作重叠起来,尤其是那些需要跨多个 GPU 运行的任务。此外,NVIDIA 扩展了 CUDA 图形的使用范围,减少了与主机 CPU 的不必要通信,这让图像分类基准 ResNet-50 的性能提升了 6%。在 NCCL(NVIDIA 的 GPU 通信优化库)上引入的两项新技术,则为 BERT 这类大型语言模型带来了最高 5% 的加速。
充分利用 NVIDIA 工作成果
所有这些优化成果,均已在 MLPerf 仓库中公开。任何人都可以复现 NVIDIA 的结果。与此同时,NVIDIA 也在将这些改进持续整合到 NGC(GPU 应用软件中心)的容器中。这就是全栈平台的价值——经过行业基准验证,从多家合作伙伴处可得,并且能应对真实世界中的 AI 任务。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:云服务与OEM厂商借助NVIDIA AI技术使得训练更上层楼要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。
SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。
需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,
艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来
- 日榜
- 周榜
- 月榜
热点快看
