当前位置: 首页
AI
国产GPU开源生态加速 SGLang核心开发者加入共建

国产GPU开源生态加速 SGLang核心开发者加入共建

热心网友 时间:2026-05-14
转载

国产GPU的竞争格局,早已超越了单纯的芯片参数比拼,正悄然转向一个更深层次的战场:生态坐标之争。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

最近一场技术聚会,现场没有大厂高管站台,却挤满了开源圈的熟面孔。目光扫过台下,能对上好几个在GitHub上如雷贯耳的ID:

有目前大模型推理框架的顶流SGLang的核心开发者BBuf(Xiaoyu Zhang);有主导下一代算子编程生态TileLang的维护者唐正举;有操刀KVCache解耦与传输神器Mooncake的核心贡献者马腾;有来自智源人工智能研究院、围绕Triton/FlagOS死磕AI编译器的肖航;还有像R0CKSTAR这样在GitHub上异常活跃的硬核开发者。

图片

这场看似极客圈内部的面基会,却透着一股强烈的反差感——活动的攒局者,是国产GPU玩家,摩尔线程。

此事确实值得玩味。过去提到国产GPU,外界最容易联想到的关键词,往往还是硬件参数、显存容量、算力指标、生态替代、模型能不能跑起来。但这场“SGLang × MUSA Meetup”真正抛出的问题已经发生了转变:如何让国产GPU真正融入大模型推理的主流开源工程链路?

说得更直白一点,就是让SGLang、Triton/FlagOS、TileLang、Mooncake这些前沿工具链,以及KVCache、P/D分离、分布式通信、CI/CD、上游PR等核心工程实践,能够围绕国产GPU顺畅运转起来。

全程听下来,一个直观的感受愈发清晰:国产GPU的竞争,已经不只是芯片参数之争,转而开始迈向生态坐标之争。为什么这么说?我们继续往下看。

国产GPU开始“扩圈”了

先看这场Meetup本身。主题非常明确:SGLang × MUSA。

SGLang是当下大模型推理服务领域关注度极高的开源框架,面向LLM和多模态模型,核心目标是实现低延迟、高吞吐,覆盖从单卡到大规模分布式集群的部署场景。这类框架之所以关键,是因为今天的大模型落地,早已不是“模型训练好了,放上去跑”那么简单。真正进入生产环境后,系统要处理的是一整套复杂问题:例如prefill和decode阶段如何拆分,KVCache如何高效复用,长上下文如何节省成本,多轮对话如何降低首token延迟,大规模集群如何调度,新模型发布后如何实现Day-0支持,出现性能差距时如何定位到具体的内核。

第一个上台的是SGLang核心开发者BBuf。

图片

△SGLang核心开发者BBuf

这个在GitHub上拥有27k星的开源推理框架,如今已是全球开发者部署大模型的首选之一。他带来的SGLang 2026年第二季度路线图,每一条都踩在行业的痛点上:针对DeepSeek V4的全链路优化,包括W4A16量化、MegaMoE加速和稀疏注意力支持;用jit_kernel全面替代传统的sgl-kernel,通过TVM-FFI将编译速度提升了数倍,告别了等待数小时构建wheel包的时代;Vibe Coding全面落地,利用AI agent自动分析性能剖析器、定位瓶颈并提交PR,5月前已完成超过60个优化任务;多模态能力全面升级,支持LTX2、Wan、混元视频等最新模型,性能相较其他框架最高提升5倍。

最令人印象深刻的是他展示的一组数据:SGLang通过P/D分离架构,在12个H100节点上跑出了每节点52.3k输入token/秒、22.3k输出token/秒的成绩,成本据称比DeepSeek最新API便宜5倍,且该结果已被全球十余个团队复现。

紧接着上台的摩尔线程贡献者R0CKSTAR,带来了全场最硬核的工程实践分享。

图片

△摩尔线程工程师R0CKSTAR

他用一句话总结了过去半年的工作:“SGLang on MUSA已经完成了从环境构建到CI测试的全链路打通。”这意味着什么?现在开发者只要克隆SGLang的最新代码仓库,安装sgl-kernel和sglang,就能在摩尔线程MTT S5000显卡上直接运行几乎所有主流大模型。DeepSeek、通义千问3.5、GLM-4.5、FLUX、Wan这些热门模型,均已完成了深度优化。

他特别提到了MUSA的三层CUDA兼容栈。过去适配一个推理框架可能需要修改数千行代码,现在只需在开头添加一行“import torchada”,99%的CUDA代码就能直接运行。这个看似简单的改动,实则解决了国产GPU生态适配的一大痛点。据了解,截至5月12日,摩尔线程在SGLang主线累计提交了47个PR,其中41个已被合并,完成了从环境构建到分布式推理的全链路打通。

来自智源的肖航则分享了DeepSeek V4在MUSA上的Day-0适配成果。

图片

△智源AI编译器研究员

通过FlagOS的Triton算子优化和摩尔线程的SQMMA张量加速引擎,他们将DeepSeek V4的首token延迟降低了56.7%,吞吐量提升了23%。对此,肖航表示:“我们没有做什么黑魔法,就是把两个最关键的算子优化到了极致。”FP8矩阵乘算子平均加速8.85倍,稀疏注意力算子平均加速6.01倍,这两个占推理时间80%的算子一旦优化,端到端性能自然水涨船高。

TileLang维护者唐正举的分享,则让与会者看到了下一代算子编程的未来。

△TileLang维护者唐正举

这个2025年2月才开源的项目,短短一年多就收获了6k星和133位贡献者,连DeepSeek V4的核心内核都是用TileLang编写的。正如唐正举所说:“用TileLang写FlashAttention,只要50行Python代码,性能和专家手写的CUDA一模一样。”现场展示的对比图也印证了这一点:同样的GEMM算子,TileLang用15行代码达到了CUTLASS的性能,代码量减少了90%。

最后上台的阿里云马腾,带来了Mooncake项目的最新进展。

图片

△Mooncake Contributor 马腾

这个专注于KVCache解耦的项目,如今已是SGLang、vLLM等主流推理框架的标配。他展示了一组颇为亮眼的数据:通过RDMA P2P权重更新,Kimi K2 1T模型的权重同步时间从53秒降至7.2秒,加速了7.37倍;EPD三级解耦架构让多模态模型的首token延迟降低了6-8倍;HiCache + Mooncake后端让多轮对话的缓存命中率超过90%。

至此,这场Meetup的技术拼图基本完整——SGLang是推理框架主链路,MUSA是国产GPU底层平台,FlagOS/Triton解决关键算子优化,TileLang降低高性能内核编程门槛,Mooncake补上KVCache和生产部署的最后一块。这,便是一条较为完整的大模型推理工程链路。

为什么摩尔线程能把他们摇来?

这个问题的答案不能简单归结为“办了一场活动”。开源圈很现实,大家愿意来,核心原因不是谁会讲故事,而是这件事真的和他们正在攻坚的工程问题息息相关。

首先看MUSA本身的设计理念。摩尔线程CTO张钰勃在开场中解释,MUSA是Meta-computing Unified System Architecture。

图片

△摩尔线程CTO张钰勃

“Meta-computing”指向通用计算,意味着摩尔线程希望GPU尽量拥抱通用计算,而不是给未来可计算的领域设限;“Unified”则意味着产品线遵循同一套统一标准,避免不同产品使用不同指令集和架构,导致软件生态无法积累。更关键的一句话是:“MUSA不希望开发者为了使用MUSA而重新学习一套东西。”这句话看似朴素,实则直指国产GPU生态的痛点。

开发者最怕什么?不是新硬件本身,而是为了适配新硬件,需要学习一整套全新的API,重写大量代码,改完后还进不了上游社区,社区一更新又要重新打补丁。如果一个国产GPU生态要求开发者从头学一遍,那它面对的将是巨大的迁移阻力。

所以MUSA的路线,是尽量贴近开发者已经熟悉的GPU编程方式、API接口和使用习惯。底层实现可以不同,但上层体验尽可能一致。三层CUDA兼容栈的意义就在于此:torch_musa负责连接PyTorch和MUSA的基础能力;torchada负责让CUDA优先的生态继续工作;mthreads-ml-py负责将设备管理、拓扑、显存、MTLink、P2P等信息暴露给上层框架。用更通俗的话说,摩尔线程在尽量“把原来的路修到自己门口”。

这直接影响了与开源社区协作的可行性。因为上游项目最看重的是低侵入性、可维护性和可复用性。如果一个适配方案需要大面积改动主线代码,后续每次同步上游更新都会非常痛苦,上游也很难接受。反过来,如果适配可以通过更透明、更模块化的方式完成,提交的PR就更容易被审核,也更容易持续跟随社区迭代。这就是从“我自己维护一个分支”到“我进入主线”的本质区别。

再看具体的生态结合点:

SGLang × MUSA,是推理主链路的打通。摩尔线程从去年开始将SGLang作为重点接入和贡献的开源项目,经过大半年努力,MUSA后端近期已合入SGLang主线。后续不仅是跟随功能更新,更希望在框架层面贡献更多能力。这件事的意义在于,国产GPU不再只是某个框架的外部适配对象,已经开始成为主线生态的一部分。

图片

FlagOS × MUSA,是关键算子和新模型适配。大模型推理的性能竞争,越来越多地发生在内核、编译器、调度、低精度和通信层。像DeepSeek V4 day-0适配这样的工作,本质上考验的是从模型发布到工程落地之间的反应速度。能否第一时间跑通,能否快速调优,能否在真实数据形态上找到更优配置,决定了生态能否跟上节奏。

图片

Mooncake × MUSA,是推理解耦和生产部署。KVCache的价值在Agent、多轮对话、长上下文时代被进一步放大。Mooncake与MUSA的结合,不只是让某个缓存后端能跑在国产GPU上,更是在探索跨实例KVCache共享、弹性扩缩容、缓存复用、原地升级这类生产级问题。

图片

TileLang × MUSA,则是下一代算子生态的提前布局。如果未来更多模型和硬件都需要定制内核,算子编程不能永远停留在少数专家手里。TileLang这类领域特定语言(DSL)的价值,在于把高性能内核编程变成更多开发者能上手的工程工具。

图片

这四条技术线合在一起,才是摩尔线程能组起这个局的底气。它把自己放进了大模型推理的真实工程网络里,这个网络包括框架、算子、缓存、通信、部署、CI/CD、上游贡献等等。而这,也正是国产GPU生态真正需要补上的一课。

国产GPU的生态位,正在走向协作

如果把这场Meetup放在更宏大的算力发展背景下看,它的价值或许远超一次技术分享本身。

过去几年,国产GPU的生态困境是比较明显的。许多厂商习惯了闭门造车,自己从头写一套深度学习框架,自己攒一套算子库,结果因为不符合主流开发者的习惯,鲜有人问津。又或者,有的厂商只是拉一个私有的代码分支做适配,从来不向开源上游提交代码,导致主流框架一更新,自己的适配版本就成了无人维护的孤岛。

而现在,摩尔线程给出了一个完全不同的答案:全面融入全球开源生态,去和世界上最聪明的一批开发者一起做事。在这场活动中,频繁听到几个词:Day-0 Support、Upstream PR、CI/CD。这说明国产GPU的生态位正在发生质变。摩尔线程不再只满足于做一个被动的适配者,它要的是主动出击,成为核心代码的“贡献者”,甚至是未来架构的“共建者”。

他们不仅仅是丢一个单点的补丁过去,而是把一整套包含环境构建、PR提交、CI自动化测试、版本发布、文档维护在内的工程闭环,深深地嵌入到了SGLang等顶级项目的开发流程中。这种可持续的“上游优先”模式,才是真正掌握生态话语权的方式。

这场开源聚会还证明了一件事:国产GPU已经走上了大模型推理开源生态的公共牌桌。在这个牌桌上,已经坐着风头正劲的SGLang,坐着死磕底层编译的Triton/FlagOS,坐着重塑算子生态的TileLang,坐着主导解耦架构的Mooncake。而现在,国产GPU的代表,也可以拉开椅子,从容地坐下来,和这群明星玩家们一起,打好大模型时代最关键的这把牌。

来源:https://www.51cto.com/article/843245.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
蚂蚁百灵万亿参数模型Ring-2.6-1T深度推理解析

蚂蚁百灵万亿参数模型Ring-2.6-1T深度推理解析

在人工智能技术飞速发展的今天,通用大模型已能高效处理信息整合与即时响应。然而,一个更具挑战性的目标逐渐成为焦点:如何让AI系统具备人类专家般的深度、严谨且耗时的“慢思考”能力?这正是蚂蚁百灵(Ant Ling)推出其旗舰级深度推理模型Ring-2 6-1T的核心使命。 作为百灵大模型家族“Ring”

时间:2026-05-14 17:44
Ask Jeeves搜索服务正式关闭,AI工具崛起成主因

Ask Jeeves搜索服务正式关闭,AI工具崛起成主因

AskJeeves搜索引擎于1997年上线,凭借自然语言提问功能一度流行。2006年更名为Ask com后未能扭转颓势,最终因无法与新一代AI工具竞争而宣布永久关闭。其告别页面感谢了开发团队和用户,并称“Jeeves的精神将永远延续”。

时间:2026-05-14 17:44
黄仁勋夫妇捐赠1.08亿美元算力支持科研机构

黄仁勋夫妇捐赠1.08亿美元算力支持科研机构

近日,科技与慈善领域传来一则重磅消息:英伟达联合创始人兼CEO黄仁勋及其夫人洛丽,通过家族基金会完成了一笔价值1 083亿美元的战略性捐赠。这笔捐赠并非传统的现金或股票,而是从知名云计算公司CoreWeave购入的先进AI算力资源。这些宝贵的计算资源将定向赠予大学及非营利科研机构,专项用于支持前沿科

时间:2026-05-14 17:43
台积电AI封装产能今年将突破80% N2制程首年表现优于N3

台积电AI封装产能今年将突破80% N2制程首年表现优于N3

在今日举行的台积电年度技术论坛上,公司向全球合作伙伴与业界清晰传递了其在先进封装与下一代半导体制程领域的战略布局与最新进展。一张现场发布的图表生动揭示了核心趋势:面向人工智能的先进封装产能正经历爆发式增长,而备受期待的2纳米制程技术也已进入稳步推进的关键阶段。 具体而言,台积电披露,在其CoWoS先

时间:2026-05-14 17:42
支持CarPlay的AI聊天机器人应用有哪些

支持CarPlay的AI聊天机器人应用有哪些

随着iOS26 4及后续版本更新,语音对话类AI应用已支持CarPlay。目前ChatGPT、Grok和Perplexity已推出专属CarPlay应用,提供语音对话及历史记录等功能。此外,通过CarPlay小组件,GoogleGemini和MicrosoftCopilot等也能在车机上直接进行语音交互。部分应用的小组件虽可添加但暂不可用。未来预计将有更多A

时间:2026-05-14 17:42
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程