北大与DeepSeek联合开源推理框架DSpark算力突破
北大与DeepSeek联合开源推理加速框架DSpark,采用半自回归结构和置信度驱动动态验证机制,解决长文本生成中重复前向计算导致的算力浪费与延迟。在通义千问3等模型上测试,有效抑制候选有效率衰减,实现吞吐能力阶跃式提升。
AI推理的“慢”与“堵”,终于有了新解法
先挑个重点说:大模型在推理阶段出现的“卡顿式”延迟,一直是困扰业界的顽固痛点。尤其在高并发请求下,模型每生成一个词元,都必须重新激活全部计算资源从头执行前向传播——这好比你说出一个字就要重启整个大脑,效率之低可想而知。
6月28日,北京大学与深度求索(DeepSeek)联合发布了一款名为DSpark的推理加速框架,目前已正式开源。它的核心目标非常明确:解决长文本生成过程中,“重复执行前向计算”所导致的算力浪费与响应延迟问题。
当前主流的加速方案是推测解码,但其缺陷同样突出:轻量模型串行生成候选序列,时间成本偏高;并行架构虽能提升吞吐量,但一旦遇到长文本场景,候选序列的接受率就会明显下降。简而言之,大量算力被浪费在无效候选上。

双轨协同:一次搞定质量与速度的矛盾
那么DSpark是如何实现突破的呢?它选择了一条“双轨协同”的优化路线。
在候选生成阶段,该框架采用了一种半自回归结构。通俗来说:由并行主干网络一次性提取高质量语义特征,再叠加一个轻量级的逻辑增强模块进行局部精修。结果令人惊喜——仅用两层Transformer,就能超越五层并行模型的生成质量。这在推理速度与输出精度之间,找到了一个相当理想的平衡点。
而在验证调度环节,系统引入了置信度驱动的动态验证机制。具体而言,一个硬件感知型前缀调度器会实时监测GPU的负载状态,优先验证那些高置信度的候选片段。如此一来,冗余计算量被大幅压缩,整体效率自然显著提升。
实测表现:长文本不再“越跑越慢”
该框架已在通义千问3、Gemma4等主流模型上完成了多维度测试,覆盖代码生成、数学推理、日常对话等典型任务。与Eagle3和DFlash这两个行业标杆基线方案相比,DSpark在单轮有效生成长度指标上展现出明显优势。尤其针对超长文本生成,它有效抑制了候选有效率随长度增加而快速衰减的现象——这在以往几乎无法避免。
工程落地:不是纸上谈兵
DSpark的可贵之处在于它并非仅停留在实验室。研发团队实施了大量底层系统级优化:序列打包技术压缩显存占用,异步调度引擎消除GPU流水线阻塞,并且全面适配主流CUDA硬件生态。
目前,DSpark已率先集成到DeepSeek-V4-Flash与DeepSeek-V4-Pro预览版服务引擎中。实测数据表明,无论以何种响应延迟阈值衡量,系统整体的吞吐能力都实现了阶跃式提升——这并非百分之几的改善,而是质变级的跨越。
开源才是硬道理
深度求索已在GitHub上的DeepSpec项目中同步开源了DSpark、DFlash及Eagle3的完整训练代码、模型权重与评估工具链。这意味着,高性能推理服务的部署门槛正在被实质性降低。对于希望实现大模型规模化、低成本落地的团队而言,这无疑是一套可直接复用的技术底座。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:北大与DeepSeek联合开源推理框架DSpark算力突破要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点LucidaAI是一款面向企业的AI英语口语教练,通过实时对话提供发音、语法、词汇和流利度的个性化反馈。采用端到端加密并支持合规定制,定价策略注重普及化,旨在以低成本提升团队英语沟通能力。
Screenshot2Code工具能够从截图中自动识别代码,并将其转换为可直接运行的代码。支持Python、HTML及API接口信息提取,帮助开发者快速复用他人分享的代码片段,从而显著提升工作效率。这个工具极大简化了代码复用过程。
SpeakStruct通过可自定义模板将语音转换为结构化数据,适用于会议记录、客户通话等场景。核心功能包括自定义模板、准确转录和随处捕捉,使口语信息直接转化为可用的数据资产。
IzzyAI是一款AI驱动的语音治疗应用,提供全天候服务。通过智能治疗师头像互动,系统评估并治疗五种常见语音语言障碍,融合语音与面部识别技术给予实时反馈。内置综合评估、个性化练习、进展报告及支持性社区,提升治疗效果。
- 日榜
- 周榜
- 月榜
热点快看
