面包屑图标 当前位置: 首页
AI资讯
热点详情

DeepSeek理论成本利润率545%技术深度解读

AI热点日报
AI热点日报时间:2026-07-01
热点解读

先来聊聊硬核技术细节。就在许多人以为DeepSeek的开源周内容已经全部揭晓时,3月1日,团队突然放出了一枚“One More Thing”——详细披露了V3 R1推理系统的庞大部署成本与收益。这实际上是一份极具分量的“底牌曝光”。 根据官方发布的《DeepSeek-V3 R1推理系统概览》,他们算

先来聊聊硬核技术细节。就在许多人以为DeepSeek的开源周内容已经全部揭晓时,3月1日,团队突然放出了一枚“One More Thing”——详细披露了V3/R1推理系统的庞大部署成本与收益。这实际上是一份极具分量的“底牌曝光”。

根据官方发布的《DeepSeek-V3/R1推理系统概览》,他们算了一笔账:假设GPU租赁成本为2美元/小时,每天的总成本大约8.7万美元。再将网页、App、API所有渠道的负载全部计入,所有模型tokens均按DeepSeek-R1的定价估算(缓存命中0.14美元/百万输入tokens,未命中0.55美元/百万输入tokens,输出2.19美元/百万输出tokens),理论上一天的总收入能达到5.62万美元。据此计算,成本利润率高达545%。

545%的利润率究竟意味着什么?这背后,隐藏着不少值得琢磨的行业信号。

深度技术解读!DeepSeek理论成本利润率545% !

先简单普及一个基础概念。在AI的世界里,Token是语言被切分后的最小单元。用户提问、AI回答,文本长度都对应一定数量的Token。处理每个Token都需要消耗算力。此外,还有“命中缓存”的情况——即用户提问涉及的数据已经存在缓存里,模型可以直接调用,无需重新计算或检索,自然更省钱。如果没命中,就需要花费更多算力,成本更高。因此,按Token计价收费是目前AI公司的主流商业模式,命中缓存时价格低,未命中则相对昂贵。

对行业而言,DeepSeek文章中提到的“56.3%的缓存命中率”是一个值得重点关注的数据。在24小时内,DeepSeek V3和R1的输入token总数达到608B,其中342B tokens(56.3%)命中了KVCache硬盘缓存。虽然各家都未公开过自己的命中率,但超过一半的水平,在业内绝对属于非常高的水准。

要知道,DeepSeek的模型参数高达6710亿,数亿用户提问时的文本内容千差万别。在这种前提下还能保持高命中率,充分说明团队在模型整体优化上投入了大量心血。DeepSeek团队自己也表示,V3、R1推理系统的优化目标很简单:追求更大的吞吐量,更低的延迟。他们采用的是混合专家模型核心架构(MOE),简单来说,就是超大模型由许多规模较小的专家模型组成,各有分工。好比一个团队要集合各领域的专家去攻克任务,必须先把任务拆分成多个流程,分配给不同领域的专家,让他们各司其职,最后汇总结论。

由于DeepSeek-V3/R1的专家数量极多——每层256个专家,实际运行只激活8个——要实现“大吞吐、低延迟”,就必须在极短时间内高效调用每一个专家。这也就是DeepSeek文章中提到的“大规模跨节点专家并行”。这是一项难度极高的任务。如果优化分配不到位,就会导致一个6000多亿参数的超大模型,每次可能只有几个专家在运行,甚至因为一个专家没跑完,其他专家只能干等。等待往往意味着算力资源的浪费。在DeepSeek开源之前,这种混合专家模型的平衡设计,对许多AI大厂而言都是尚未攻克的难题。

此外,DeepSeek还设计了一套灵活的调度机制:白天用户访问量大、服务负荷高,就动用所有模型节点部署推理服务;晚上负荷低,则减少推理节点,把空出来的资源用于研究和训练。在最近的24小时内,V3和R1推理服务占用节点总和,高峰时最多用278个节点,平均约226.75个节点(每个节点为8块英伟达H800 GPU)。考虑到DeepSeek还有新模型项目和其他工作需要GPU,这1800到2000张H800 GPU,大概率就是现阶段V3与R1模型能够调用的“全部家当”。

此前行业普遍认为,DeepSeek的创新突破在于资源有限的条件下将效率发挥到极致。正是基于这一整套优化方案,才有了545%的成本利润率。不过,DeepSeek自己也强调,这只是一个理论值,实际收入远没有这么多——因为V3的定价更低,收费服务只占一部分,夜间还有折扣。

DeepSeek在行业内一直有个外号:“AI拼多多”。去年推出V2模型时,它就把API调用价格降至输入1元/百万tokens、输出2元/百万tokens,带动了豆包、Kimi、文心一言等厂商跟进,掀起了第一波模型价格战。最新V3模型的定价仅为OpenAI同类模型4o的1/15,R1模型也远低于同行。此次公布的高利润率,让外界真正看清了DeepSeek降价的真实“底牌”。

此前业内热议“DeepSeek模型API定价过低会不会导致巨亏”,但前研究员罗福莉去年5月在知乎上就否认过这个说法,她表示按当时的定价,大规模服务并不亏本,利润率超过50%。创始人梁文峰也曾在采访中表示,定价策略是“原则上不亏本销售,也不追求过高利润,目前的定价只在成本之上保留了一定的利润空间”。

目前,各厂商宣布接入“满血版”DeepSeek R1模型,大多以单机(8张GPU)、双机这类小规模设备为主。据记者了解,“四机”目前是考验技术能力的分水岭。而随着服务器台数增多,规模化部署、调度和优化的难度会直线上升。DeepSeek团队能够实现300多台服务器的部署工程,对技术能力的要求已经远超同行。尽管545%的利润率只是一个基于大规模部署的理论值,实际利润尚未公开,但它确实让行业看到了“赚钱的希望”。DeepSeek在公布利润率的同时,也将优化方法开源了。行业自然会积极学习这套方法去部署自家的模型。虽然对大多数公司来说,“知道”和“做到”是两回事——把同样的优化方法落地,会遇到各种各样新的问题——但至少,整个行业会在方向上做出更多尝试。

技术深挖:DeepSeek-V3/R1推理系统的优化蓝图

DeepSeek官方对推理系统的优化目标表述得非常直白:更大的吞吐量,更低的延迟。为此,他们主要做了三件事。

大规模跨节点专家并行

由于每个模型层有256个专家,但只激活8个,这种高度稀疏性决定了必须使用足够大的整体batch size,才能让每个专家都分配到足够的计算量,最终实现高吞吐、低延迟。因此,多机多卡间的专家并行是必然选择。

  • Prefill阶段:路由专家EP32、MLA和共享专家DP32,一个部署单元为4个节点、32个冗余路由专家,每张卡负责9个路由专家和1个共享专家。
  • Decode阶段:路由专家EP144、MLA和共享专家DP144,一个部署单元为18个节点、32个冗余路由专家,每张卡负责2个路由专家和1个共享专家。

计算通信重叠:让等待彻底消失

多机多卡的专家并行会带来不小的通信开销。为了不让机器空转等待,团队采用了双batch重叠技术。简单来说,就是让两个batch的计算和通信交错进行:一个batch在执行计算时,另一个batch的通信同步完成,两者互不闲置。

  • Prefill阶段:两个batch的计算和通信交错,计算过程恰好掩盖了通信耗时。
  • Decode阶段:由于不同阶段执行时间不同,团队把attention部分拆成两个stage,总计5个stage的流水线,实现了计算与通信的重叠。

尽力实现负载均衡

在大规模并行(数据并行和专家并行)环境下,只要某块GPU的计算或通信负载过重,就会成为整个系统的瓶颈,拖慢一切,其他GPU也只能空转。因此,必须为每张GPU分配均衡的任务。

  • PrefillLoadBalancer:核心问题在于不同DP实例上的请求个数和时长不同,导致计算量和发送量存在差异。优化目标是让每张GPU的计算量和输入token数量尽量一致。
  • DecodeLoadBalancer:核心问题类似,但更关注KVCache占用和请求数量的均衡。
  • Expert-ParallelLoadBalancer:MoE模型中存在“天然高负载”的专家,导致不同GPU上的专家计算负载不均衡。优化目标就是让每张GPU上的专家计算量尽可能一致,即最小化所有GPU的dispatch接收量的最大值。

实际运行数据

DeepSeek V3和R1全部使用H800 GPU,精度与训练一致(矩阵计算和dispatch采用FP8,core-attention和combine采用BF16),最大程度保证服务效果。白天负荷高时,全部节点跑推理;晚上负荷低时,减少推理节点,转作研究和训练。

最近24小时(2025/02/27 12:00 至 2025/02/28 12:00),V3和R1推理服务占用节点峰值278个,平均226.75个节点。假设GPU租赁成本2美元/小时,总成本为87072美元/天。

同期,输入token总数608B,其中342B(56.3%)命中KVCache缓存;输出token总数168B。平均输出速率20~22 tps,每输出一个token的KVCache长度为4989。平均每台H800的吞吐:prefill阶段(含缓存命中)约73.7k tokens/s;decode阶段约14.8k tokens/s。

如果所有tokens都按DeepSeek-R1定价计算,理论上一天收入可达562027美元,成本利润率545%。当然,实际收入远低于这个数值——V3定价更低、收费服务占比有限、夜间还有折扣。

这个数字,足以让整个AI行业停下来认真思考一番了。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepSeek理论成本利润率545%技术深度解读要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/OpenSourceLLM/2025030346805.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-01 21:45
KwalAI Chrome插件 专业高效实用AI智能浏览器在线助手工具

在招聘这个行业中,数据录入的繁琐程度相信大家都有切身体会。每天需要从各类网页、社交平台、招聘站点中搜寻候选人信息,再手动一条条录入系统,既耗时费力又容易出错。今天要介绍的这款Kwal Chrome插件,正是为了彻底解决这一痛点而设计的。什么是 Kwal Chrome 扩展程序 插件?该插件的定位十分

AI热点2026-07-01 21:45
Twinning AI创建AI克隆与粉丝聊天获利

网红经济正在进化——Twinning AI带来的玩法是:粉丝可以直接跟你的人工智能分身聊天,而你,每次互动都能收到真金白银。它集成了专业的声音克隆、文本和语音消息,以及数据分析能力,让粉丝互动变得既有趣又能变&现。 什么是Twinning AI? 简单来说,Twinning AI允许网红创建一个属于

AI热点2026-07-01 21:45
Invoicemint人工智能发票与财务管理软件

在跨境电商和全球业务快速发展的今天,发票与财务管理工具的重要性日益凸显。AI技术的加入,让这些原本繁琐的流程实现了质的飞跃。Invoicemint 正是这样一款专注全球企业的智能发票与财务管理软件——它不只是一个简单的发票生成器,而是一套覆盖从开票、对账到税务合规、催款的全链路解决方案。 什么是In

AI热点2026-07-01 21:45
MyWhy实时AI语音心理治疗师

想象一下,你随时都能找到一个倾听者——不带任何偏见,不会感到疲惫,而且完全匿名。这听起来像科幻小说里的情节,但现在已经成为现实。MyWhy 就是这样一款 AI 心理治疗应用,它将专业的情感支持装进你的口袋,让心理健康服务不再是奢侈品,而是像打开手机一样触手可及。什么是MyWhy?简单来说,MyWhy

延伸阅读