千问正式开源FlashQLA 可减少训推过程注意力层的计算开销
千问开源FlashQLA:为线性注意力算子注入“硬核”效率
近日,AI开源社区迎来一则重磅消息。4月29日,千问大模型团队正式开源了FlashQLA——一个基于TileLang实现的高性能线性注意力算子库。这可不是一个简单的代码发布,其背后指向一个明确的行业痛点:随着模型参数规模与序列长度的不断攀升,注意力机制的计算开销,正日益成为制约训练与推理效率的关键瓶颈。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

那么,FlashQLA究竟意在解决什么问题?这得从千问模型自身的演进说起。自Qwen3-Next发布以来,其采用的Gated Delta Network(GDN)架构,已成为千问全系列模型的主力注意力层。从最初的Qwen3-Next-80B-A3B,到后续推出的Qwen3.5乃至Qwen3.6系列,GDN都扮演着核心角色。然而,当模型规模一路扩展至397A17B、122A10B乃至35B、27B等不同配置时,一个现实挑战浮出水面:GDN在端到端训练与推理过程中所产生的计算开销,已经变得不容忽视。
技术内核:当“门控”遇见“并行”
面对这一挑战,FlashQLA的发布给出了颇具巧思的答案。其核心亮点主要集中在两大创新上。
首先,是**Gate驱动的自动化卡内序列并行**。传统方法在处理长序列或特定张量并行(TP)配置时,常常面临计算资源利用率不足的问题。FlashQLA巧妙地利用了GDN中Gate门控所具备的指数衰减特性,实现了智能化的并行策略。简单来说,系统能在TP、长序列、注意力头数较少等场景下,自动开启卡内序列并行。这一机制如同为GPU的流多处理器(SM)安装了智能调度器,显著提升了硬件资源的利用效率。
其次,在于**硬件友好的代数改写**。FlashQLA并非简单封装,而是对GDN Chunked Prefill的前向传播与反向传播流程,进行了深度的算子融合与性能优化。通过对计算过程进行代数层面的重构,它在确保数值精度毫发无损的前提下,有效降低了Tensor Core、CUDA Core及特殊函数单元(SFU)的计算开销。这种“从算法层面为硬件量身定制”的思路,正是实现性能突破的关键。
性能表现:效率提升肉眼可见
经过这番“内外兼修”的改造,FlashQLA交出的成绩单相当亮眼。根据官方数据,在NVIDIA Hopper架构GPU上,该算子库在多种应用场景下,相较于原有的FLA triton Kernel,实现了**2至3倍的前向传播加速**,以及**约2倍的反向传播加速**。
这意味着什么?对于需要海量数据迭代的预训练场景,计算时间的缩短直接等同于研发成本的降低与迭代速度的飞跃。而对于时延敏感的端侧智能体(Agentic)推理任务,更高的推理效率则直接转化为更流畅的用户体验和更低的部署成本。可以说,FlashQLA的推出,正是瞄准了AI工业化进程中“降本增效”的核心诉求。
开源这一高性能算子库,也体现了千问团队推动技术普惠的一向思路。将经过实战验证的底层优化成果共享给社区,无疑将助力整个行业更高效地探索更大规模的模型架构与应用边界。接下来,业界可以期待基于FlashQLA的更多模型实现与性能基准测试,其生态价值将在实际应用中逐步显现。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
华硕ROG DAY 2026广州站5月15日举行,包含新品发布会
ROG DAY 2026 广州站定档 5 月 15 日,新品发布与玩家狂欢同日开启 玩家们期待已久的年度盛宴来了。华硕旗下高端电竞品牌 ROG(玩家国度)正式官宣,ROG DAY 2026 广州站活动,将于 5 月 15 日在广州市流花展贸中心的大麦 66 livehouse 拉开帷幕。 从官方公布
国家信誉与短期逐利孰重孰轻?从苹果天价罚单看印度的战略投机
国家信誉与短期逐利孰重孰轻?从苹果天价罚单看印度的战略投机 近日,印度竞争委员会(CCI)的一纸拟议罚单,在全球科技界投下了一枚重磅冲击波。高达380亿美元的处罚金额,不仅相当于苹果全球服务业务年均营收的10%,创下印度反垄断的历史纪录,其严厉程度在全球监管实践中也极为罕见。消息传出,国际商界一片哗
21对话|陪小米智驾长到十八岁
21对话|陪小米智驾长到十八岁 21世纪经济报道记者 何煦阳 2026年3月,小米新一代SU7正式亮相。这次升级,硬件层面自然不必多说,软件架构更是迈入了“XLA”认知大模型的新阶段。这套系统究竟是怎么炼成的?背后又有哪些过人之处?4月,《21汽车·一见Auto》记者何煦阳与小米智能驾驶基座模型负责
千问正式开源FlashQLA 可减少训推过程注意力层的计算开销
千问开源FlashQLA:为线性注意力算子注入“硬核”效率 近日,AI开源社区迎来一则重磅消息。4月29日,千问大模型团队正式开源了FlashQLA——一个基于TileLang实现的高性能线性注意力算子库。这可不是一个简单的代码发布,其背后指向一个明确的行业痛点:随着模型参数规模与序列长度的不断攀升
机构预计今年全球折叠屏手机面板出货量同比增长51%
苹果折叠屏iPhone Fold定档2026,全球面板市场将迎“强心针” 最近,行业研究机构CINNO Research发布了一份重磅预测,在产业链上传出确切消息的背景下,苹果的首款折叠屏手机iPhone Fold,已经进入了量产前的最后冲刺。这款备受瞩目的产品,预计将在2026年秋季与我们正式见面
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

