腾讯混元AI Infra开源核心技术 推理吞吐性能提升30%
大模型推理的效率优化,已成为AI应用开发与部署的关键挑战。面对线上服务中硬件成本、算力资源与性能需求的复杂平衡,技术团队亟需更高效的底层解决方案。近日,腾讯混元AI Infra团队正式开源了高性能LLM推理核心算子库HPC-Ops,旨在从算力底层突破瓶颈,为大模型推理提供生产级的高性能加速支持。
HPC-Ops是一个基于CUDA与CuTe从零构建的生产级核心算子库。其设计目标清晰:通过高度抽象的工程架构、对硬件微架构的深度适配以及指令级极致优化,将关键算子的执行效率逼近硬件理论峰值,从而显著提升大模型推理的整体吞吐与能效。根据官方实测数据,在真实业务负载下,基于HPC-Ops优化后,混元模型的推理QPM(每分钟查询数)提升达30%,DeepSeek模型的QPM也实现了17%的增长。
为何需要专门针对推理场景开发新的算子库?这源于当前业界普遍存在的实践痛点。
目前,主流的大模型算子库(例如FlashInfer、DeepGEMM)的优化重点,大多集中于NVIDIA H800等高端训练卡。然而,受成本控制、供应链等因素影响,实际线上推理服务大量采用的却是H20等推理专用卡。现有先进算子库在这些主流推理卡上,往往难以充分发挥硬件潜能。同时,业务侧对高吞吐、低延迟以及Blockwise FP8等复杂量化策略的需求日益强烈,对底层算子的兼容性与性能提出了更高要求。
具体而言,现有方案主要面临两大核心挑战:
- 二次开发与适配成本高:主流算子库设计复杂,核心Kernel封装层次深,在其基础上进行定制化修改和硬件适配的工程门槛很高。这对于广大AI工程师与研究者而言并不友好。而大模型前沿加速技术,如新型量化算法、投机采样(Speculative Decoding)等,都高度依赖与之匹配的高效算子实现。回顾历史,早期的4bit、8bit量化算法虽理论优势明显,却因缺乏配套的低精度高效算子,在相当长时间内实际部署效果甚至成为“负优化”。
- 目标硬件架构不匹配:现有库多针对H800乃至更超前的Blackwell架构进行深度优化。然而,不同硬件在计算单元、内存带宽、缓存层次上的差异,决定了Kernel的优化策略必须差异化设计。这导致现有算子库在国内主流推理卡上的性能表现,经常达不到预期效果。
正是基于这些实际痛点,腾讯混元团队自主研发了HPC-Ops。它集成了FusedMoE、Attention、机内/机间通信、Norm、Sampler以及各类小算子融合等核心模块。其核心技术理念可归纳为以下三点:
第一,实现任务特性与硬件能力的精准匹配。 对于受限于内存访问带宽的算子,性能关键在于数据加载效率。HPC-Ops针对国内主流推理显卡,通过精细调整指令发射顺序进行数据预取优化,确保数据搬运单元持续高负载运行。同时,针对不同问题规模进行更细致的指令流对齐,消除冗余低效指令。例如,在解码阶段Attention(Decode Attention)和小批次GroupGEMM场景中,通过交换计算矩阵A与B的顺序,使其对齐硬件架构的wgmma指令要求,从而让访存带宽利用率达到硬件峰值能力的80%以上。
第二,实施精细化的任务调度与数据布局重排。 针对每个算子的计算问题,重新设计任务划分与调度策略,在保证每个流多处理器(SM)负载均衡的同时,兼顾数据在缓存中的连续性。采用持久化内核(persistent kernel)模式,隐藏内核启动与收尾的开销。此外,通过创新的数据重排技术减少额外数据操作和显存占用。例如,在FP8精度的Attention Kernel中,采用了交织(Interleave)重排技术,有效解决了指令匹配问题,减少了线程间的数据交换(shuffle)操作,从而获得了超越业界标杆的性能表现。
第三,让开发者聚焦于算法与计算逻辑创新。 GPU编程的复杂性常源于底层数据操作的繁琐。为了调用高效硬件指令,通常需要对数据进行多次重解释与格式变换,这极大增加了开发者的心智负担。HPC-Ops基于CuTe扩展开发了向量(vec)抽象层,统一负责高效的数据搬运,并利用布局(Layout)代数抽象隔离复杂的分块(Tiling)与计算逻辑,使得开发者能更专注于核心算法创新,显著降低了高性能CUDA内核的开发和维护门槛。
核心性能基准测试结果
通过上述系统性优化,HPC-Ops在关键算子模块上实现了显著的性能突破。测试基于混元、DeepSeek等常见模型规格,并与当前主流算子库的实现进行了全面对比:
GroupGEMM:与DeepGEMM (v2.2.0)对比,在Batch≤64的低延迟推理场景下优势明显,较DeepGEMM最佳性能最高提升1.88倍,并通过流水线掩盖技术使Blockwise量化与PerTensor量化的性能几乎持平;在大Batch高吞吐场景下,仍能保持约1.1倍的性能领先。该算子同时兼容紧密内存排布与Token不连续输入,显著减少了临时显存占用。
FusedMoE:该模块完整封装了前序数据重排、GroupGEMM及后续Reduce加权平均的全流程。在序列长度为16倍数的均衡规格下,对比vLLM (v0.11.0)与TensorRT-LLM (v1.1.0)的实现,在张量并行(TP)场景下相比TensorRT-LLM最大性能提升达1.49倍;在专家并行(EP)模拟均衡负载场景下最大提升1.09倍。针对不同输入长度采取的差异化数据重排策略,确保了模块在各种规格下均能获得最优性能。
Attention:针对预填充(Prefill)阶段,测试了128~64K的输入长度范围。在batch较小时,BF16精度下相比当前最优实现性能提升1.3倍;在大batch时性能与当前最优水平基本持平。针对解码(Decode)阶段,根据线上服务等级目标(SLO)约束设计测试用例,在BF16精度下性能提升范围达1.35倍~2.22倍;在FP8精度下,当序列长度较小时与最优水平相当,当序列长度较大时相比最优实现提升1.09倍~2.0倍。
算子库核心能力与未来演进规划
作为专为大模型推理设计的高性能算子库,HPC-Ops通过对Attention、FusedMoE、GroupGEMM等核心算子的深度优化,实现了最高2.22倍的性能加速,并已在腾讯内部大规模生产环境中得到充分验证。它提供了简洁易用的API接口,能够无缝对接vLLM、SGLang等主流推理框架,并原生支持BF16、FP8等多种精度量化方案。尤为重要的是,它以CuTe、CUTLASS等先进抽象为基础,提供了仅需数百行代码即可构建高性能算子的实践范例,极大降低了高性能CUDA内核的开发难度。
展望未来,HPC-Ops将持续聚焦大模型推理的性能前沿。一方面,将重点研发稀疏Attention(Sparse Attention)算子,针对性解决长上下文模型面临的内存与计算瓶颈;另一方面,将拓展更丰富的量化策略支持,覆盖4bit/8bit混合精度等更多方案,以进一步平衡推理速度与模型精度。此外,算子库还将布局计算-通信协同优化的融合内核,通过将多GPU间的计算逻辑与通信流程深度融合,大幅降低分布式推理场景下的通信开销,为千亿乃至万亿参数超大模型的高效、稳定部署提供坚实的底层算力支撑。
目前,HPC-Ops项目已在GitHub全面开源。腾讯混元Infra团队也表示,诚挚欢迎业界的技术专家与实践者提交高价值的代码提交(PR),共同参与算子边缘场景优化、教程与案例完善等工作,携手推进大模型推理效率的技术边界。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Python批量生成Nano_Banana_API图片自动化脚本教程
针对NanoBananaAPI批量生成图片需求,介绍了三种Python自动化方法:使用requests库同步顺序调用,适合少量任务;利用asyncio与aiohttp实现异步并发,可提升大批量处理效率;对于需结合CPU预处理的复杂任务,推荐使用多进程与队列进行分片并行处理。各方法均需注意请求构建与响应解析。
如何让海螺AI生成的文章更自然减少AI痕迹
通过优化提示词结构、控制句式多样性、注入个性化语言以及分段生成与人工干预,可以有效降低海螺AI生成文章的“AI味”。具体方法包括赋予AI明确角色、禁用套路表达、提供范文参考、引入灵活句式、使用个性化词汇、分段生成并实时调整,从而让文本更接近真人写作的自然与生动。
Uber四个月用尽全年AI预算 科技巨头烧钱竞赛引关注
Uber在2026年仅四个月就耗尽了全年AI预算,高昂运营成本与业务回报不成正比。其内部AI工具使用量激增,却未转化为用户端的功能提升。为承担AI开销,公司甚至缩减人员招聘规模。管理层质疑,若成本长期无法证明能转化为实用服务,这种投入将难以持续。
KIMI WebBridge上线实现浏览器全功能智能操控
Kimi团队发布WebBridge浏览器插件,使AI助手能直接操控浏览器完成网页操作。插件可通过官方渠道安装并连接AIAgent,连接成功后即可演示其控制浏览器执行任务的能力。该工具基于CDP协议,能提升操作效率。
Agent Harness 最小版安装与使用指南
评估Agent需系统考察其工具调用、中间结果与任务遵循过程,而不仅看最终答案。构建最小化harness可将任务置于可控环境,限定工具使用,完整记录执行轨迹并进行客观评分。该框架包含任务、环境、工具、轨迹和评分器五个模块,实现过程可追溯、可复现的评估,推动Agent能力检验走向标准化与透明化。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

