OpenAI工程师Scott Gray:用CUDA革新AI训练的底层突破

人工智能领域的发展从来都不是单打独斗的结果,除了那些频频亮相的学界大咖,更离不开万千幕后英雄的无私奉献。最近,OpenAI一位长期深耕底层代码优化的工程师突然走红,他用一行行代码支撑起整个大模型帝国的运转。
这场"出圈"始于社交平台的热议,有网友惊叹OpenAI仅依靠一位工程师手写的CUDA Kernel,就高效处理着每天数万亿次的计算请求。经过多方求证,这位神秘人物很可能就是OpenAI资深工程师Scott Gray。公司最新资料显示,他专精于"优化深度神经网络在GPU上的运算效能",而这刚好解释了那些惊人的技术突破。
开发高性能的训练用CUDA Kernel无疑是程序员中的"珠峰",这要求开发者兼具并行计算理论基础、GPU硬件专业知识与深度学习算法理解三栖能力。普通开发者大多停留在使用现成工具层面,能做推理优化的已属难得,而能为复杂的训练过程(特别是反向传播)编写出超越cuDNN等标准库的底层Kernel的高手,放眼全球都屈指可数。Scott Gray的经历堪称这一领域的教科书范本。
Scott Gray的职业生涯始于伊利诺伊大学厄巴纳-香槟分校的物理与计算机科学双修经历。2016年加入OpenAI之前,他曾在Nervana Systems(后被英特尔收购)负责GPU汇编级别的内核优化工作。有趣的是,Nervana前CEO在社交媒体上透露,他们当年是在技术论坛里"挖掘"到了Gray这位奇才,盛赞其为"GPU编程界的天花板"。
Gray的技术传奇始于他对硬件极限的执着探索。在那个深度学习即将爆发的黎明时分,他发现现成的软件框架与硬件性能之间存在巨大的效率断层。绝大多数同行都习惯依赖NVIDIA提供的CUDA C/C++和标准库(如cuBLAS、cuDNN)进行GPU编程。虽然这些工具降低了开发门槛,但其过多的软件抽象层也成为制约性能的瓶颈。
Gray提出了突破性的思路:要最大化硬件潜能,必须直击本质。他研发了maxas——一个专为NVIDIA Maxwell架构打造的汇编器。这项黑科技让他能够手工微调每一个底层计算单元,精确掌控寄存器分配、内存延迟调配和指令流水线规划。在开发过程中,他用maxas实现了惊人的SGEMM(单精度矩阵乘法运算)内核,在GM204 GPU上跑出了接近理论峰值98%的效能,比NVIDIA闭源的cuBLAS库还要快近5%。
尝到甜头后,Gray将目光投向深度学习另一核心——卷积运算。他推出的maxDNN项目完美印证了底层优化的普适价值。这个项目虽然借鉴了当时最先进的卷积算法理念,但在实现层面完全基于maxas的汇编级优化技术。最终版本中,超过98%的指令都是纯粹的浮点运算,计算效率突破了理论极限。在经典的AlexNet模型测试中,maxDNN在所有卷积层上都稳定保持着93-95%的计算利用率,全方位碾压了当时的cuDNN标准库。
加盟OpenAI后,Gray的工作重心发生了战略转向。随着Scaling Laws理论的崛起,模型规模的扩大成为提升性能的主要途径。然而,传统稠密模型的局限性日益凸显。此时Gray转型为"技术赋能者",专注为更高效的稀疏模型架构打造专属工具。
细心的研究者发现,Scott Gray的名字几乎出现在OpenAI所有里程碑式的论文作者列表中——从GPT-3、GPT-4到Codex和DALL-E。作为核心技术开发者,他编写的那些高性能GPU内核默默支撑着这些模型每天万亿级别的训练和推理需求。为解决稠密模型规模化困境,Gray与团队创新性地开发了块稀疏(block-sparse)GPU核心系统。
这项技术并没有简单粗暴地剔除单个权重参数,而是将权重矩阵划分为标准块后整体归零。Gray为此专门开发了能智能跳过这些零值块的GPU内核,相比传统的稠密矩阵处理方案效率提升了数个量级。在这些黑科技的加持下,OpenAI在多个领域持续保持标杆地位。令人敬佩的是,他们将基础性的块稀疏内核代码开源共享,推动了整个AI社区的技术进步。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
华为阿里共建AI超节点,推动国产算力效率升级
随着人工智能技术加速渗透各领域,行业对算力的需求呈现指数级增长。当AI模型参数规模从亿级攀升至万亿级时,传统单机与集群架构逐渐显露出性能瓶颈,而“超节点”技术正成为突破算力瓶颈的关键方案。这种由数千
周鸿祎:智能2.0时代人机协同可提升智商至230
360集团创始人周鸿祎近日就人工智能发展前景发表了独到见解,他提出一个颇具争议性的观点:当人类与AI技术深度融合时,其综合认知能力或将突破传统生理极限,达到230的超高水准。在分析当前人工智能发展态
OpenAI回应诉讼:马斯克指控无依据,员工离职属正常流动
据路透社消息,OpenAI于周四向联邦法院提出申请,要求驳回埃隆·马斯克旗下人工智能企业xAI提起的一桩诉讼。该诉讼指控OpenAI通过挖角xAI员工的方式窃取商业机密。在法庭文件中,OpenAI明
日本拟真伴侣机器人:触感细腻的情感交互新体验
当人工智能浪潮席卷全球,机器人技术正以惊人的速度模糊科幻与现实的边界。在日本这个对机械生命怀有特殊情结的国度,一款具备高度拟真特质的女性机器人近日引发舆论风暴。这款集尖端材料与情感算法于一身的机械伴
斯坦福博士Carina Hong联手Meta专家投身AI数学,融资6400万
在斯坦福大学附近的Verve Coffee Roasters咖啡馆里,一场改变科技版图的对话悄然展开。2024年秋季,数学博士生Carina Hong与前meta AI研究员Shubho Sengu
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程




甜瓜游乐场自定义角色全攻略 - 手把手教你打造个性游戏人物
发布于 2025-10-04













