当前位置: 首页
web3.0
DeepSeek V4深度:一次注意力机制的结构性颠覆

DeepSeek V4深度:一次注意力机制的结构性颠覆

热心网友 时间:2026-04-24
转载
DeepSeek-V4预览版解析:百万上下文如何成为“标配”?

DeepSeek-V4预览版解析:百万上下文如何成为“标配”?

DeepSeek发布了V4预览版,并且同步开源。公告里有一句话,分量不轻:

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

“从现在开始,1M(一百万)上下文将是DeepSeek所有官方服务的标配。”

OpenAI和Google早就支持超长上下文了,这不算新闻。真正的难点在于成本。Transformer那套注意力机制,计算量会随着序列长度呈平方级增长——序列长度翻一倍,所需算力就得翻四倍。在传统架构下,处理100万个token的成本,几乎让商业化成为不可能的任务。

那么,DeepSeek V4是怎么做到的?技术报告给出了关键数据:在1M token的场景下,V4-Pro的单token推理计算量(FLOPs)只有上一代V3.2的27%,而KV缓存的用量更是降到了只有10%。

两把刀

标准Transformer的自注意力机制,要求每个token都得和序列里所有其他token计算一遍相关性权重。这是平方复杂度,是结构性问题,靠工程上的小修小补根本解决不了。

过去业界的主流应对方式,大体分两类:要么“切掉”计算范围,比如采用滑动窗口,只看局部邻居,但代价是失去了全局感知能力;要么“绕开”长文本本身,比如先用RAG检索出相关片段再喂给模型,但这又让检索质量成了新的性能天花板。还有一些固定模式的稀疏注意力方法,通过人工设计来跳过部分计算,但模式是死的,面对不同任务千差万别的信息分布,泛化能力实在有限。

V4给出的方案,是一套组合拳:CSA + HCA混合注意力架构。

CSA(压缩稀疏注意力),解决的是“算什么”的问题。它的思路很巧妙:先用一个轻量级的索引器对所有token对进行快速粗筛,估算出相关性的排序,然后再精准地挑出那些真正需要完整计算的token集合。这套机制的关键在于,其稀疏结构是可训练的——模型能在训练过程中自己学会,在哪些地方需要高密度的注意力,在哪些地方可以稀疏处理。这其实在V3.2时代的DSA(动态稀疏注意力)中已有雏形,V4是在此基础上做了进一步的演化。

HCA(重度压缩注意力),解决的则是“存什么”的问题。它在V3时代MLA(多头潜在注意力)的基础上继续推进,将KV向量映射到一个低维的“潜空间”进行压缩存储,推理时再解压使用。再叠加上FP4与FP8混合精度技术——MoE专家参数用FP4,其余用FP8——KV缓存的显存占用又被砍掉了一半。

CSA和HCA这两把刀叠加起来的效果,直接体现在了开头那两个数字上:27%的FLOPs,10%的KV缓存。换算成实际收益就是,在同等算力下,能够支持的长上下文并发服务量,大约是原来的3到4倍。

技术报告里还有两个细节值得圈点。一个是mHC(流形约束超连接),它对残差连接做了流形约束强化,专门针对1.6T参数这种超深度模型在训练时可能出现的跨层信号衰减问题。另一个是Muon优化器,它取代了Adam系列,基于矩阵正交化进行更新,在超大规模训练中收敛更快、更稳定——要知道,Adam几乎是大模型训练的默认配置,DeepSeek这次把它换掉了。

数字

官方给出了V4与Claude Opus 4.6、GPT-5.4 xHigh、Gemini 3.1 Pro High的全维度横向评测。

数学和竞赛推理是V4-Pro表现最突出的维度。Codeforces评分达到3206,在四家中最高(GPT-5.4是3168,Gemini和V4-Flash都是3052)。Apex Shortlist得分90.2,超过了Opus 4.6(85.9)、GPT-5.4(78.1)和Gemini(89.1)。IMOAnswerBench得分89.8,仅次于GPT-5.4(91.4)。

智能体(Agent)能力上,SWE Verified得分80.6,与Opus 4.6的80.8几乎持平。Toolathlon得分51.8,高于Opus 4.6的47.2,略低于GPT-5.4的54.6。公告里有一句内部评价很能说明问题:V4已成为员工进行Agentic Coding的主力模型,“使用体验优于Claude Sonnet 4.5,交付质量接近Opus 4.6的非思考模式”。

长上下文测评有两个数字需要对比着看:MRCR 1M(长文本关键信息检索)得分83.5,高于Gemini的76.3,但低于Opus 4.6的92.9。CorpusQA 1M(长文档精准问答)得分62.0,低于Opus 4.6的71.7。MRCR更侧重检测关键信息是否存在,而CorpusQA则要求在百万token中精准定位并进行综合分析——这两个测评结果的分化,恰恰说明了模型在不同长文本任务上的能力特点。

综合知识和科学前沿推理方面:SimpleQA-Verified得分57.9,低于Gemini的75.6。HLE(前沿科学推理超难题集)得分37.7,在四家中最低。

此外,V4-Flash版本也值得关注:284B总参数,13B激活参数,体量约为Pro版的18%,但同样支持1M上下文和Think/Think Max推理模式。官方称其在简单的Agent任务上与Pro版“旗鼓相当”。

DeepSeek将这次发布称为“预览版”,技术报告的标题里用的词是“Towards”——朝向,还在路上。CSA和HCA的设计逻辑今天已经公开,但这套稀疏训练机制在面对不同任务分布时具体表现如何,将是接下来开源社区需要共同探索和验证的事。

数据来源:DeepSeek官方公告《DeepSeek-V4 预览版:迈入百万上下文普惠时代》(2026年4月24日);技术报告 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

来源:https://www.528btc.com//news/116385331.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
全链网:这场战争对伊朗是“存亡之战” 抗压韧性远超预期

全链网:这场战争对伊朗是“存亡之战” 抗压韧性远超预期

伊朗的抗压韧性:一场被低估的“存亡之战” 最近,美国前驻巴林大使亚当·埃雷利的一番分析,点出了一个常被外界忽略的关键点。他在谈及伊朗面对外部压力时的表现时,特别强调了其抵抗的韧性与本质。在他看来,伊朗革命卫队所具备的“革命热情”,远非简单的军事力量可以衡量,这直接关系到其生存能力。 一个核心判断是:

时间:2026-04-24 14:38
全链网:比特币长持者Q1持仓增至360万枚,创2020年以来新高

全链网:比特币长持者Q1持仓增至360万枚,创2020年以来新高

全链网报道:比特币长持者Q1持仓增至360万枚,创2020年以来新高 4月24日,Cointelegraph的一则报道,揭示了一个相当值得玩味的市场动态。根据ARK Invest发布的最新报告,今年第一季度,比特币市场出现了一个关键转折:那些被称为“长期持有者”或“坚定持有者”的群体,其持有的比特币

时间:2026-04-24 14:37
比特币ETF在短短8天内就撤资20亿美元,而短期持有者则悄然开始抛售。

比特币ETF在短短8天内就撤资20亿美元,而短期持有者则悄然开始抛售。

有人通过ETF买入了价值21亿美元的比特币。另一个人则利用这笔交易抛售离场。 截至4月23日,美国现货比特币ETF已经连续八个交易日吸引资金流入,总额达到了21亿美元。根据SoSoValue的数据,这是自2025年10月比特币连续九天飙升至12 6万美元历史高点以来,最长的一次资金净流入纪录。单看4

时间:2026-04-24 14:34
Solana价格分析显示看跌压力,但长期前景看好以下是展望

Solana价格分析显示看跌压力,但长期前景看好以下是展望

索拉纳:阻力与底部的拉锯战 当前,索拉纳(SOL)的走势正处在一个微妙的十字路口。一方面,价格在88美元附近遭遇强劲阻力,短期压力显而易见;另一方面,市场上关于长期底部是否正在形成的讨论也开始升温。这构成了一个典型的市场分歧时刻:趋势承压,但希望犹存。 阻力持续将价格推回 短期图表讲述了一个清晰的故

时间:2026-04-24 14:29
高盛坚定看好新易盛:汇率

高盛坚定看好新易盛:汇率"黑天鹅"压制单季利润,产能扩张等将支撑未来几季表现

一季报:收入超预期,净利输给汇兑 新易盛一季度的成绩单,可以说是一份典型的“喜忧参半”。营收83 38亿元,同比猛增106%,这个数字比市场此前的预测还要高出约10%,绝对算得上超预期。更值得玩味的是毛利率,从上一季度的48 9%小幅爬升到了49 2%。别小看这零点几个百分点的提升,在激烈的市场竞争

时间:2026-04-24 14:25
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程