腾讯混元开源HPC-Ops:打造高性能LLM推理核心算力库
腾讯混元 AI Infra 团队正式开源了适用于生产环境的高性能大语言模型(LLM)推理核心算子库 HPC-Ops。该库直接瞄准工业级部署中的实际瓶颈,从底层着手,基于 CUDA 和 CuTe 进行完全重构,融合了工程架构抽象化设计、GPU 微架构深度适配以及指令级精细化调优等多重技术手段。在显著降低底层算子开发复杂度的同时,推动关键算子性能逼近硬件理论极限,实现实质性的性能跃升。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
根据最新介绍,HPC-Ops 是一套轻量、高吞吐、低延迟的 LLM 推理算子集合,专为大规模型服务场景优化。其核心模块覆盖:FusedMoE(融合专家混合)、Attention(注意力机制)、设备内/跨设备通信(Intra-/Inter-node Communication)、Norm(归一化)、Sampler(采样器),以及对多种高频小算子的深度融合实现。团队通过深入剖析典型推理任务的数据流特征与 GPU 硬件微架构特性,精确匹配计算划分子策略与底层指令执行模型,从而释放更高并行效率;同时对工程代码层进行合理抽象,使算法工程师可更专注于模型逻辑与算子语义设计,大幅缩减后续迭代与维护成本。
HPC-Ops 算子库整体架构如下:

腾讯混元 AI Infra 团队披露的实际测试数据显示:在真实业务负载下,搭载 HPC-Ops 后,混元系列模型推理 QPM(每分钟查询数)提升达 30%,DeepSeek 系列模型 QPM 提升 17%。单算子维度表现尤为突出——Attention 算子相比 FlashInfer / FlashAttention 最高提速 2.22 倍;GroupGEMM 相比 DeepGEMM 最高提速 1.88 倍;FusedMoE 相比 TensorRT-LLM 最高提速 1.49 倍。
开源地址:
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
iOS 26.5 Beta 1:欧盟用户现可接入第三方配件通知
IT之家 3 月 31 日消息,科技媒体 9to5Mac 今天(3 月 31 日)发布博文,报道称苹果更新开发者协议,在欧盟地区为第三方配件接入 iPhone 通知和实时活动(Live Activi
特朗普或结束伊战提振市场,比特币等风险资产上涨前景
智通财经APP获悉,周二亚洲交易时段,加密货币与股票、债券同步走高,市场正在消化一则消息:美国总统唐纳德·特朗普正考虑结束与伊朗的战争。比特币一度上涨2 6%,触及68,335美元,随后回吐部分涨幅
武汉光谷AI人才新政:最高支持1350万元
不看学历看代码,不看资历看作品,不唯学历、论文和职称……3月31日,武汉东湖高新区启动人工智能重大创新创业团队引进专项行动,推出人工智能领域专属引才政策,新政以GitHub星标数、API调用量、用户
内存价格暴跌商家承压:一盒亏损数千元探因
2026 03 31作者 |第一财经 吴彤 李梓晗 朱斌持续数月上涨的内存条价格近日突然下跌。第一财经记者走访深圳华强北了解到,自从两周前开始,内存条价格就开启阴跌模式,甚至出现早晨收货下午就跌价的
中国科协:2026年NeurIPS会议资助调整与学者参会指引
中国科学技术协会2026年3月31日发布告示:中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清晰、适当的,没有发生变化。现就
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

