微软CTO解读AI大模型Scaling Law的发展上限
主持人:今天我们的嘉宾是微软的CTO,Kevin Scott。我们认识他已经很多年了,可以一直追溯到他在谷歌的时期,那时他就和我们的合作伙伴比尔·考特有交集。比尔今天也会参与,希望你觉得今天的访谈有意思。

Kevin Scott:很高兴能来。
主持人:先聊聊你的故事吧。一个弗吉尼亚农村的孩子,是怎么成为微软CTO的?
Kevin Scott:说实话,我觉得这段经历是不可复制的。回想起来,就是“天时地利人和”。我现在52岁,PC革命全面爆发时,我正好是10到12岁。那时候,就像所有孩子一样,你一边摸索着,一边看自己到底对什么感兴趣。
有一个客观的教训是:如果你恰好对某件事着迷,并且非常有动力去深入钻研,而且在这个领域飞速发展时入局,那么你最终大概率会走到一个不错的位置。我对计算机很着迷,也是家里第一个考上大学的人。我主修计算机科学,辅修英语文学。拿到本科学位后,我开始琢磨下一步怎么走。当时我一贫如洗,也厌倦了总是为钱发愁,所以选了条务实的路。虽然觉得拿个英语文学博士学位挺好的,但还是选了计算机科学。有段时间我想成为教授,一直读到研究生,做了很多关于编译、优化和编程语言的工作。但最后我发现,我并不想当教授。花六个月写篇论文,只为了让合成基准测试提升3%,这对我来说,不是在改变世界。而且,我也不想一直重复这样的工作。
所以2003年,我给谷歌投了简历。后来收到了克雷格·内布尔·曼宁的邮件,他刚去纽约开设谷歌第一个远程工程师办公室。面试过程很棒,我不知道是刻意安排还是运气好,好像谷歌所有的编译器工程师都跑来面我了,这感觉太奇妙了。最后我加入了谷歌早期的广告团队,正好赶上移动设备爆发的前夜,帮他们搭建了移动广告基础设施。之后回到谷歌总部,接着帮领英上市,管理其工程运营,再后来微软收购了我们。
主持人:你在正确的时间做了正确的事。现在,我们把焦点转向AI。你在微软参与了与OpenAI的合作,你怎么看AI实践这件事?
Kevin Scott:如果你要构建非常复杂的平台级AI,比如那些用于训练和推理的大型分布式系统,需要网络、芯片等系统软件组件,那么博士学位会非常有帮助。你需要大量的基础知识才能快速切入问题。当然,不一定非得有博士学位,但通常拿到博士学位的人足够聪明,而且已经经历了严格的训练,脑子里塞满了各种技术知识,有能力处理复杂的项目。所以,它是非常有帮助的。
主持人:看起来AI平台系统项目是这样。但拿到博士学位的人,通常是相对孤立地在自己领域里工作。所以,人们必须学会如何融入团队,与其他人高效协作。除了构建平台,AI还有很多其他领域,比如教育、医疗、开发者工具等。说到这个,微软的AI战略似乎是最具雄心的。你能用几句话概括一下吗?你自己觉得哪些做好了,哪些还差些火候?
Kevin Scott:这确实是个我们反复讨论的问题。微软是一家平台公司,参与并推动了几次大型平台计算浪潮。我们是PC革命中当之无愧的支柱之一,在互联网革命中也扮演了重要角色,尽管那次可能离得远一些。
我们现在的思路是,为这个技术时代构建一个平台,让其他人能在上面构建有价值的东西——这就是我们的AI策略。从最前沿的大模型到小型语言模型,再到高度优化的推理基础设施,我们不断拓展训练和推理的规模,让整个平台更易用,让每一代模型都更便宜、更强大。就像其他开发者工具一样,我们提供安全基础设施、测试工具等所有必要的东西,这样开发者就能构建稳健的AI应用程序。这就是我们的策略,我认为我们做得不错。
作为工程师,大部分工程师都是“短期悲观,长期乐观”。比如:“这玩意儿不好使,一堆问题要解决,真让人沮丧,但我必须搞定它,相信最后都能解决。”所以,有很多事我们做得很好。最典型的例子是,我们与OpenAI合作,让非常强大的AI被更多人用上。因为合作,我们发现了大量新客户,这些人原本可能不会去构建强大的AI应用。所以,与OpenAI的合作是个亮点。我们目前有一个理念,虽然未来可能会变,但就是关于AI平台应该是什么样的理念,我们正努力让它尽可能完善。
但要说到做得不够好的,我觉得我们对基础AI的关注确实有点晚了。不是说微软没有投资AI,微软研究院多年来做了很多工作,可以说是AI领域的早期领路人。实际上,过去20年里AI最重要的进步,大多与某种“规模”有关——通常是数据规模和计算规模的结合,让你能在更低规模时做不到的事情上有所突破。当数据和算力指数级增长时,你就不得不做出一些孤注一掷的赌注。从经济学角度看,你不可能在10种不同的事物上都反赌,尤其是当它们都处于指数级扩展趋势中时。
所以,我们还有一件事做得不够好,就是没有尽快把所有的资源都押在正确的篮子里。我们花了很多钱在AI上,但摊子铺得太大了,因为不想伤害聪明人的感情。很多项目我都不知道最后结果如何,毕竟它们大多发生在我来微软之前。总之,我们的动作不够快,但现在已经把投资重点放在了规模化上。
主持人:你什么时候成了“规模优先”的信徒?有什么决定性时刻吗?
Kevin Scott:我在微软干了大约七年半。刚当上CTO时,我的工作就是从左到右审视微软和整个行业,看看我们在哪些执行环节存在漏洞。大概两三年后,我发现微软最大的问题就是:在AI这件事上进展太慢了。所以,可以说在2017年中期,我就坚信“规模”的力量了,这成了我工作的重要部分,并帮我们理清了战略。
之后不久,我重组了微软内部大量资源,让大家更聚焦于AI。大约一年后,我们和OpenAI达成了第一笔交易。之后,我们一直在加快投资,力求更聚焦、更清晰、更有目的性。
主持人:你最初看中了OpenAI的什么潜力?
Kevin Scott:我们,或者说至少我相信,随着这些模型不断扩展,它们将成为构建平台的基础。你有一堆数据、一堆机器和一个算法,就能训练一个模型,但这模型是专门训练出来做特定事情的。就像我以前在谷歌做的广告点击率预测,很精准,很有效。但在GPT之前,大部分工作都是针对这些非常狭窄的用例。你要复制这个过程,就得请不同数据领域的博士和AI方向的博士,每个应用里要构建AI时都得走一遍不同的流程。而OpenAI的这些大型语言模型,对很多不同的事都有效,你不需要为机器翻译和情感分析单独建模型了。我当时就想,这太不寻常了。
随着规模扩大,迁移学习的效果更好。我们知道大型语言模型能做加减法,所以当你迈向下一个规模点时,它们的能力集会变得更通用。而且,我们和OpenAI抱有同样的信念。他们对这些平台特征如何随规模显现进行了非常原则性的分析,并通过大量实验验证了猜想。所以,找到一个与你有相同平台信念的合作伙伴,并且能实际通过规模点来验证训练,这感觉完全不同。我对过去的很多投资都比较保留,但对这次合作,信念感很强,尽管当时很多人不同意。
主持人:说到投资,现在很多媒体都在猜测训练模型的成本,几十亿、几百亿美元。按我的理解,我觉得训练很快会被推理取代,不然,建了模型没人用,投资不就白费了吗?你怎么看计算领域的发展?大家都开玩笑说,钱都流向了英伟达。
Kevin Scott:英伟达做得很好。但从规模扩大的效率来看,有趣的是,每一代硬件的性能价格比都在提升,其幅度通常超过了摩尔定律在通用计算领域的影响。A100比V100的性价比好了三倍半,H100也差不多。从目前的信息来看,下一代硬件也很有潜力。所以,出于各种原因,我们在流程技术和架构组成上,能重复利用的硬件越来越多。
你不需要64位算术运算,需要的是更低精度的运算,这样并行性可以做得非常大。我们在提取并行性方面越来越强,网络方面也做了很多创新。我们已经过了前沿模型阶段,至少在单个GPU上已经做不了什么有趣的事了。训练和推理都是如此,已经持续多年了。
实际上,自2012年以来,我们就没有真正有效地提升功率缩放效率了。晶体管越来越多,但温度却越来越难控制。我们面临着很多密度问题,必须处理功率耗散问题。
主持人:这是否意味着,推理驱动着不同的数据中心架构?
Kevin Scott:我们已经用不同的方式构建了训练和推理环境。从芯片到网络层级,推理和训练需要的东西不同,但推理比训练更容易。我们现在正在构建推理需要的庞大环境,这需要几年时间。如果有人提出了更好的芯片架构、网络架构或冷却技术,这就像一次更容易运行的实验,你只需要替换几个机架就行。这比做一个大型资本项目的训练环境容易多了。所以直观上,你会认为推理环境会更加多样化,竞争更激烈,迭代速度更快。
在软件方面,情况也是如此。推理在整个计算占用空间中占了很大一部分,而且目前是供不应求。所以,优化软件栈来榨取更多性能的动力非常强。
主持人:你认为我们很快会遇到供需平衡发生变化的情况吗?不一定是微软,感觉整个市场层面也有这个趋势。
Kevin Scott:构建前沿模型极其耗费资源。只要有人想构建前沿模型并让它们易访问,就得花一大笔钱。如果你现在要开一家公司,前提是你得先建好自己的前沿模型。这就好比,你要交付一个移动应用,必须先自己造智能手机硬件和操作系统。对市场来说,有意义的是,你希望看到很多人在做很多模型推理,因为这说明产品找到了市场契合点,说明这些东西在扩展。但同时,也有大量投机性的资金流入了基础设施研发。
在扩展方面,微软不久前发表了一篇论文,指出训练数据的质量至少和数量同等重要。现在业界也在猜测,我们正在耗尽高质量训练数据的来源。也有很多文章说,正在建立各种合作来获取付费墙后面的数据。你认为这会如何发展?感觉计算能力越来越强,但训练数据却可能越来越少。
Kevin Scott:这几乎是不可避免的。在我看来,数据的质量比数量更重要,这是件好事,因为它能为AI训练算法提供模范,并为未来的合作提供经济框架。这会产生更智能的模型,并且不会浪费大量算力去做无关紧要的事。人们常常困惑一点:大型语言模型不是数据库。如果你需要它做检索引擎,不能想着“我有这个东西了,什么都得往里塞”。我们认为,你拥有对训练模型有价值的数据,然后你需要访问数据或应用程序来对模型进行推理。这是两码事。围绕它们,可能会产生两种不同的商业模式。
我们现在所有数据都在搜索引擎里,不在随机权重里,而是很明确地放在索引里,等着被检索。你输入查询,要么发送流量,要么做搜索引擎优化和广告投放,围绕着它有一大堆商业模式。我们也会为推荐数据找出商业模式,这样当袋里或AI应用需要从某人那里获取信息并给出答案时,我们就会有商业模式。可能是订阅、收入分成、授权,或者新的广告模式。前几天我还跟人说,如果我现在还20多岁,对所有创业者来说,我们真该去搞清楚新广告单元对袋里商来说是什么,就像建立新的公司一样。因为它会和以前的广告单元有相同的特性和品质:有信息、产品和服务的人,希望得到需要这些东西的人的关注。
主持人:说到这个,我们常听到价值函数是更广泛推理能力的瓶颈。但进入更广泛领域,构建价值函数更难了。这个问题有实际解决方案吗?或者说,推理和元素的整体领域会走向何方?
Kevin Scott:我们只是通过一系列基准范例来尝试得出结论。过去几年,我们看到了一个有趣的现象:我们正在快速“填满”这些基准。在每一代模型中,要么完全,要么非常接近地饱和了特定基准,然后你必须找到新的东西来当指路明灯。你问的这个问题,本质上是一系列昂贵的实验,它们只在你能想象到的最细粒度上运行,就像教科书一样,是为一个评估系统而做的贡献。
主持人:你认为当前模型处在什么水平?微软推出了很多合作试点项目,帮助用户用你的产品。另一方面,很多公司都在尝试建立自主行动的袋里。预期的性能范围很广,你觉得我们在哪儿?未来几年会到什么位置?
Kevin Scott:这是个好问题。甚至有一种哲学观点认为,每个人的工作都会被AI取代。我们给AI取名“副驾驶”,是希望鼓励微软内部构建这些东西的每个人思考:我如何能帮助那些正在从事某种认知工作的人,让他们能增强自己的能力?我们想建立的是一个系统,而不是替代技术。好事是,当你把范围缩小到一个领域时,也更容易思考如何把粗略的前沿模型能力转化为有用的工具。所以,我认为这是一条合理的部署路径。我们已经有一些合作试点项目取得了真正的市场牵引力,很多人每天都在用。
实际上,副驾能做的事越笼统,你就越难让它自主采取高精度行动,尤其是在你知道它在代表你做什么的时候。一旦它出现一大堆错误,用户的第一反应就是“这行不通”。这意味着你又要针对具体用例优化,而不是搞超级宽泛的东西。所以,我们更希望在推出之前,它就已经非常好了。
主持人:大家一开始都用OpenAI,然后可能开始用一些其他专有基础模型,结合一些开源模型,或者自己做一些东西。那里有个向量数据库。从架构上看,人们走的路不尽相同。但12或18个月后,我们发现一种巨大的八二定律在起作用——你可以快速自动化大部分任务,但最后那百分之几,很难让你真正信任它。这似乎相当难以捉摸。我好奇的是,基础模型本身何时才能足够好,消除最后那2%的问题?
Kevin Scott:我认为在一段时间内,这两者会并存。我知道你们可能会问这个问题。不管别人怎么看,我们在扩大规模时并没看到边际收益的递减,这也是我一直想让大家理解的。实际上,我们有一个参数来衡量,但必须每隔几年才能采样一次,因为建造超级计算机和在上面训练模型都需要时间。
下一个模型已经在路上了。我不能告诉你具体时间,也无法准确预测它会有多好,但它几乎肯定会更好,能解决那些“哦,天哪,这个太贵了”或“太容易崩了”的问题。所有这些问题都会改善,模型会变便宜、更耐用,能让更复杂的事情成为可能。在每一代模型更迭中,这个故事一直在重演。
我们在微软内部也在思考这个问题。我们的开发人员在开发AI产品时可能会犯一个错误:他们认为解决手头问题的唯一方法,就是去利用当前最前沿的技术,并用一大推东西来补充它。虽然你确实必须这么做,但在架构上要非常小心,不能因为这样而阻止你接纳下一个更好的模型。所以,大家应该专注于架构好应用,当新模型来临时,能快速应用上去。这是我们一直在练习的部分。
我们内部也很头疼一件事:有些团队看到前沿模型后会说,“天哪,我们不可能在这上面部署产品,太脆弱、太贵了”。我给大家的建议是,给自己留足灵活性,以便新的前沿技术出现时,能快速适应它。这样,你就能保持怀疑精神,也相信你所相信的领域。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
批处理BAT入门教程第一篇
提供13个批处理实战技巧,覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景,可一键完成系统维护与文件管理工作,极大提升自动化操作效率和便捷性。
从零开始批处理命令For循环详解与实战案例
批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名; r递归搜索指定路径及其子目录中的文件; l生成数值序列; f可解析文件、字符串或命令输出,通过delims、tokens、skip、eol等选项灵活处理内容。
批评你的人是你生命中的贵人
批评你的人往往最值得珍惜,因为他们关注你、助你成长。面对批评应包容反思,用行动改进而非辩解。接受批评是自我完善的过程,能让人少走弯路,避免重复犯错。这样的人正是生命中的贵人,值得感恩与珍惜。
测试人员角色定位与职责详解
测试人员角色经历了从找问题、保证质量到分析风险的转变,最终核心职责是提供关键信息,协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态,而非单纯把关或追求完美。
经营成功测试生涯的实用方法与策略
一、测试生涯的起点 1989年,我在田纳西大学攻读研究生时,意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择,说起来还有些戏剧性——某个早晨,教授质问我为何缺席那么多开发会议,我解释说这些会议总是安排在周末早上,对我这个第一次离家、刚入学的学生来说实在不便。结果呢?等待我的不是解聘通
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-03 16:15
2026-07-03 16:14
2026-07-03 16:14
2026-07-03 16:14
2026-07-03 16:14
2026-07-03 16:14
2026-07-03 16:13
2026-07-03 16:13
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

