微软CTO解读AI大模型Scaling Law的发展上限

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

微软CTO解读AI大模型Scaling Law的发展上限

热心网友时间：2026-07-03

转载

主持人：今天我们的嘉宾是微软的CTO，Kevin Scott。我们认识他已经很多年了，可以一直追溯到他在谷歌的时期，那时他就和我们的合作伙伴比尔·考特有交集。比尔今天也会参与，希望你觉得今天的访谈有意思。

微软CTO：AI大模型的“Scaling Law”还能走多远？

Kevin Scott：很高兴能来。

主持人：先聊聊你的故事吧。一个弗吉尼亚农村的孩子，是怎么成为微软CTO的？

Kevin Scott：说实话，我觉得这段经历是不可复制的。回想起来，就是“天时地利人和”。我现在52岁，PC革命全面爆发时，我正好是10到12岁。那时候，就像所有孩子一样，你一边摸索着，一边看自己到底对什么感兴趣。

有一个客观的教训是：如果你恰好对某件事着迷，并且非常有动力去深入钻研，而且在这个领域飞速发展时入局，那么你最终大概率会走到一个不错的位置。我对计算机很着迷，也是家里第一个考上大学的人。我主修计算机科学，辅修英语文学。拿到本科学位后，我开始琢磨下一步怎么走。当时我一贫如洗，也厌倦了总是为钱发愁，所以选了条务实的路。虽然觉得拿个英语文学博士学位挺好的，但还是选了计算机科学。有段时间我想成为教授，一直读到研究生，做了很多关于编译、优化和编程语言的工作。但最后我发现，我并不想当教授。花六个月写篇论文，只为了让合成基准测试提升3%，这对我来说，不是在改变世界。而且，我也不想一直重复这样的工作。

所以2003年，我给谷歌投了简历。后来收到了克雷格·内布尔·曼宁的邮件，他刚去纽约开设谷歌第一个远程工程师办公室。面试过程很棒，我不知道是刻意安排还是运气好，好像谷歌所有的编译器工程师都跑来面我了，这感觉太奇妙了。最后我加入了谷歌早期的广告团队，正好赶上移动设备爆发的前夜，帮他们搭建了移动广告基础设施。之后回到谷歌总部，接着帮领英上市，管理其工程运营，再后来微软收购了我们。

主持人：你在正确的时间做了正确的事。现在，我们把焦点转向AI。你在微软参与了与OpenAI的合作，你怎么看AI实践这件事？

Kevin Scott：如果你要构建非常复杂的平台级AI，比如那些用于训练和推理的大型分布式系统，需要网络、芯片等系统软件组件，那么博士学位会非常有帮助。你需要大量的基础知识才能快速切入问题。当然，不一定非得有博士学位，但通常拿到博士学位的人足够聪明，而且已经经历了严格的训练，脑子里塞满了各种技术知识，有能力处理复杂的项目。所以，它是非常有帮助的。

主持人：看起来AI平台系统项目是这样。但拿到博士学位的人，通常是相对孤立地在自己领域里工作。所以，人们必须学会如何融入团队，与其他人高效协作。除了构建平台，AI还有很多其他领域，比如教育、医疗、开发者工具等。说到这个，微软的AI战略似乎是最具雄心的。你能用几句话概括一下吗？你自己觉得哪些做好了，哪些还差些火候？

Kevin Scott：这确实是个我们反复讨论的问题。微软是一家平台公司，参与并推动了几次大型平台计算浪潮。我们是PC革命中当之无愧的支柱之一，在互联网革命中也扮演了重要角色，尽管那次可能离得远一些。

我们现在的思路是，为这个技术时代构建一个平台，让其他人能在上面构建有价值的东西——这就是我们的AI策略。从最前沿的大模型到小型语言模型，再到高度优化的推理基础设施，我们不断拓展训练和推理的规模，让整个平台更易用，让每一代模型都更便宜、更强大。就像其他开发者工具一样，我们提供安全基础设施、测试工具等所有必要的东西，这样开发者就能构建稳健的AI应用程序。这就是我们的策略，我认为我们做得不错。

作为工程师，大部分工程师都是“短期悲观，长期乐观”。比如：“这玩意儿不好使，一堆问题要解决，真让人沮丧，但我必须搞定它，相信最后都能解决。”所以，有很多事我们做得很好。最典型的例子是，我们与OpenAI合作，让非常强大的AI被更多人用上。因为合作，我们发现了大量新客户，这些人原本可能不会去构建强大的AI应用。所以，与OpenAI的合作是个亮点。我们目前有一个理念，虽然未来可能会变，但就是关于AI平台应该是什么样的理念，我们正努力让它尽可能完善。

但要说到做得不够好的，我觉得我们对基础AI的关注确实有点晚了。不是说微软没有投资AI，微软研究院多年来做了很多工作，可以说是AI领域的早期领路人。实际上，过去20年里AI最重要的进步，大多与某种“规模”有关——通常是数据规模和计算规模的结合，让你能在更低规模时做不到的事情上有所突破。当数据和算力指数级增长时，你就不得不做出一些孤注一掷的赌注。从经济学角度看，你不可能在10种不同的事物上都反赌，尤其是当它们都处于指数级扩展趋势中时。

所以，我们还有一件事做得不够好，就是没有尽快把所有的资源都押在正确的篮子里。我们花了很多钱在AI上，但摊子铺得太大了，因为不想伤害聪明人的感情。很多项目我都不知道最后结果如何，毕竟它们大多发生在我来微软之前。总之，我们的动作不够快，但现在已经把投资重点放在了规模化上。

主持人：你什么时候成了“规模优先”的信徒？有什么决定性时刻吗？

Kevin Scott：我在微软干了大约七年半。刚当上CTO时，我的工作就是从左到右审视微软和整个行业，看看我们在哪些执行环节存在漏洞。大概两三年后，我发现微软最大的问题就是：在AI这件事上进展太慢了。所以，可以说在2017年中期，我就坚信“规模”的力量了，这成了我工作的重要部分，并帮我们理清了战略。

之后不久，我重组了微软内部大量资源，让大家更聚焦于AI。大约一年后，我们和OpenAI达成了第一笔交易。之后，我们一直在加快投资，力求更聚焦、更清晰、更有目的性。

主持人：你最初看中了OpenAI的什么潜力？

Kevin Scott：我们，或者说至少我相信，随着这些模型不断扩展，它们将成为构建平台的基础。你有一堆数据、一堆机器和一个算法，就能训练一个模型，但这模型是专门训练出来做特定事情的。就像我以前在谷歌做的广告点击率预测，很精准，很有效。但在GPT之前，大部分工作都是针对这些非常狭窄的用例。你要复制这个过程，就得请不同数据领域的博士和AI方向的博士，每个应用里要构建AI时都得走一遍不同的流程。而OpenAI的这些大型语言模型，对很多不同的事都有效，你不需要为机器翻译和情感分析单独建模型了。我当时就想，这太不寻常了。

随着规模扩大，迁移学习的效果更好。我们知道大型语言模型能做加减法，所以当你迈向下一个规模点时，它们的能力集会变得更通用。而且，我们和OpenAI抱有同样的信念。他们对这些平台特征如何随规模显现进行了非常原则性的分析，并通过大量实验验证了猜想。所以，找到一个与你有相同平台信念的合作伙伴，并且能实际通过规模点来验证训练，这感觉完全不同。我对过去的很多投资都比较保留，但对这次合作，信念感很强，尽管当时很多人不同意。

主持人：说到投资，现在很多媒体都在猜测训练模型的成本，几十亿、几百亿美元。按我的理解，我觉得训练很快会被推理取代，不然，建了模型没人用，投资不就白费了吗？你怎么看计算领域的发展？大家都开玩笑说，钱都流向了英伟达。

Kevin Scott：英伟达做得很好。但从规模扩大的效率来看，有趣的是，每一代硬件的性能价格比都在提升，其幅度通常超过了摩尔定律在通用计算领域的影响。A100比V100的性价比好了三倍半，H100也差不多。从目前的信息来看，下一代硬件也很有潜力。所以，出于各种原因，我们在流程技术和架构组成上，能重复利用的硬件越来越多。

你不需要64位算术运算，需要的是更低精度的运算，这样并行性可以做得非常大。我们在提取并行性方面越来越强，网络方面也做了很多创新。我们已经过了前沿模型阶段，至少在单个GPU上已经做不了什么有趣的事了。训练和推理都是如此，已经持续多年了。

实际上，自2012年以来，我们就没有真正有效地提升功率缩放效率了。晶体管越来越多，但温度却越来越难控制。我们面临着很多密度问题，必须处理功率耗散问题。

主持人：这是否意味着，推理驱动着不同的数据中心架构？

Kevin Scott：我们已经用不同的方式构建了训练和推理环境。从芯片到网络层级，推理和训练需要的东西不同，但推理比训练更容易。我们现在正在构建推理需要的庞大环境，这需要几年时间。如果有人提出了更好的芯片架构、网络架构或冷却技术，这就像一次更容易运行的实验，你只需要替换几个机架就行。这比做一个大型资本项目的训练环境容易多了。所以直观上，你会认为推理环境会更加多样化，竞争更激烈，迭代速度更快。

在软件方面，情况也是如此。推理在整个计算占用空间中占了很大一部分，而且目前是供不应求。所以，优化软件栈来榨取更多性能的动力非常强。

主持人：你认为我们很快会遇到供需平衡发生变化的情况吗？不一定是微软，感觉整个市场层面也有这个趋势。

Kevin Scott：构建前沿模型极其耗费资源。只要有人想构建前沿模型并让它们易访问，就得花一大笔钱。如果你现在要开一家公司，前提是你得先建好自己的前沿模型。这就好比，你要交付一个移动应用，必须先自己造智能手机硬件和操作系统。对市场来说，有意义的是，你希望看到很多人在做很多模型推理，因为这说明产品找到了市场契合点，说明这些东西在扩展。但同时，也有大量投机性的资金流入了基础设施研发。

在扩展方面，微软不久前发表了一篇论文，指出训练数据的质量至少和数量同等重要。现在业界也在猜测，我们正在耗尽高质量训练数据的来源。也有很多文章说，正在建立各种合作来获取付费墙后面的数据。你认为这会如何发展？感觉计算能力越来越强，但训练数据却可能越来越少。

Kevin Scott：这几乎是不可避免的。在我看来，数据的质量比数量更重要，这是件好事，因为它能为AI训练算法提供模范，并为未来的合作提供经济框架。这会产生更智能的模型，并且不会浪费大量算力去做无关紧要的事。人们常常困惑一点：大型语言模型不是数据库。如果你需要它做检索引擎，不能想着“我有这个东西了，什么都得往里塞”。我们认为，你拥有对训练模型有价值的数据，然后你需要访问数据或应用程序来对模型进行推理。这是两码事。围绕它们，可能会产生两种不同的商业模式。

我们现在所有数据都在搜索引擎里，不在随机权重里，而是很明确地放在索引里，等着被检索。你输入查询，要么发送流量，要么做搜索引擎优化和广告投放，围绕着它有一大堆商业模式。我们也会为推荐数据找出商业模式，这样当袋里或AI应用需要从某人那里获取信息并给出答案时，我们就会有商业模式。可能是订阅、收入分成、授权，或者新的广告模式。前几天我还跟人说，如果我现在还20多岁，对所有创业者来说，我们真该去搞清楚新广告单元对袋里商来说是什么，就像建立新的公司一样。因为它会和以前的广告单元有相同的特性和品质：有信息、产品和服务的人，希望得到需要这些东西的人的关注。

主持人：说到这个，我们常听到价值函数是更广泛推理能力的瓶颈。但进入更广泛领域，构建价值函数更难了。这个问题有实际解决方案吗？或者说，推理和元素的整体领域会走向何方？

Kevin Scott：我们只是通过一系列基准范例来尝试得出结论。过去几年，我们看到了一个有趣的现象：我们正在快速“填满”这些基准。在每一代模型中，要么完全，要么非常接近地饱和了特定基准，然后你必须找到新的东西来当指路明灯。你问的这个问题，本质上是一系列昂贵的实验，它们只在你能想象到的最细粒度上运行，就像教科书一样，是为一个评估系统而做的贡献。

主持人：你认为当前模型处在什么水平？微软推出了很多合作试点项目，帮助用户用你的产品。另一方面，很多公司都在尝试建立自主行动的袋里。预期的性能范围很广，你觉得我们在哪儿？未来几年会到什么位置？

Kevin Scott：这是个好问题。甚至有一种哲学观点认为，每个人的工作都会被AI取代。我们给AI取名“副驾驶”，是希望鼓励微软内部构建这些东西的每个人思考：我如何能帮助那些正在从事某种认知工作的人，让他们能增强自己的能力？我们想建立的是一个系统，而不是替代技术。好事是，当你把范围缩小到一个领域时，也更容易思考如何把粗略的前沿模型能力转化为有用的工具。所以，我认为这是一条合理的部署路径。我们已经有一些合作试点项目取得了真正的市场牵引力，很多人每天都在用。

实际上，副驾能做的事越笼统，你就越难让它自主采取高精度行动，尤其是在你知道它在代表你做什么的时候。一旦它出现一大堆错误，用户的第一反应就是“这行不通”。这意味着你又要针对具体用例优化，而不是搞超级宽泛的东西。所以，我们更希望在推出之前，它就已经非常好了。

主持人：大家一开始都用OpenAI，然后可能开始用一些其他专有基础模型，结合一些开源模型，或者自己做一些东西。那里有个向量数据库。从架构上看，人们走的路不尽相同。但12或18个月后，我们发现一种巨大的八二定律在起作用——你可以快速自动化大部分任务，但最后那百分之几，很难让你真正信任它。这似乎相当难以捉摸。我好奇的是，基础模型本身何时才能足够好，消除最后那2%的问题？

Kevin Scott：我认为在一段时间内，这两者会并存。我知道你们可能会问这个问题。不管别人怎么看，我们在扩大规模时并没看到边际收益的递减，这也是我一直想让大家理解的。实际上，我们有一个参数来衡量，但必须每隔几年才能采样一次，因为建造超级计算机和在上面训练模型都需要时间。

下一个模型已经在路上了。我不能告诉你具体时间，也无法准确预测它会有多好，但它几乎肯定会更好，能解决那些“哦，天哪，这个太贵了”或“太容易崩了”的问题。所有这些问题都会改善，模型会变便宜、更耐用，能让更复杂的事情成为可能。在每一代模型更迭中，这个故事一直在重演。

我们在微软内部也在思考这个问题。我们的开发人员在开发AI产品时可能会犯一个错误：他们认为解决手头问题的唯一方法，就是去利用当前最前沿的技术，并用一大推东西来补充它。虽然你确实必须这么做，但在架构上要非常小心，不能因为这样而阻止你接纳下一个更好的模型。所以，大家应该专注于架构好应用，当新模型来临时，能快速应用上去。这是我们一直在练习的部分。

我们内部也很头疼一件事：有些团队看到前沿模型后会说，“天哪，我们不可能在这上面部署产品，太脆弱、太贵了”。我给大家的建议是，给自己留足灵活性，以便新的前沿技术出现时，能快速适应它。这样，你就能保持怀疑精神，也相信你所相信的领域。

来源:https://www.aiagiai.com/1644.html

上一篇： OpenClaw 的 sessions_send 机制

下一篇： Claude Code code-simplifier最强代码清理神器完全使用指南