DeepSeek理论成本利润率545%技术深度解读

AI热点日报时间：2026-07-01

热点解读

先来聊聊硬核技术细节。就在许多人以为DeepSeek的开源周内容已经全部揭晓时，3月1日，团队突然放出了一枚“One More Thing”——详细披露了V3 R1推理系统的庞大部署成本与收益。这实际上是一份极具分量的“底牌曝光”。根据官方发布的《DeepSeek-V3 R1推理系统概览》，他们算

先来聊聊硬核技术细节。就在许多人以为DeepSeek的开源周内容已经全部揭晓时，3月1日，团队突然放出了一枚“One More Thing”——详细披露了V3/R1推理系统的庞大部署成本与收益。这实际上是一份极具分量的“底牌曝光”。

根据官方发布的《DeepSeek-V3/R1推理系统概览》，他们算了一笔账：假设GPU租赁成本为2美元/小时，每天的总成本大约8.7万美元。再将网页、App、API所有渠道的负载全部计入，所有模型tokens均按DeepSeek-R1的定价估算（缓存命中0.14美元/百万输入tokens，未命中0.55美元/百万输入tokens，输出2.19美元/百万输出tokens），理论上一天的总收入能达到5.62万美元。据此计算，成本利润率高达545%。

545%的利润率究竟意味着什么？这背后，隐藏着不少值得琢磨的行业信号。

深度技术解读！DeepSeek理论成本利润率545% ！

先简单普及一个基础概念。在AI的世界里，Token是语言被切分后的最小单元。用户提问、AI回答，文本长度都对应一定数量的Token。处理每个Token都需要消耗算力。此外，还有“命中缓存”的情况——即用户提问涉及的数据已经存在缓存里，模型可以直接调用，无需重新计算或检索，自然更省钱。如果没命中，就需要花费更多算力，成本更高。因此，按Token计价收费是目前AI公司的主流商业模式，命中缓存时价格低，未命中则相对昂贵。

对行业而言，DeepSeek文章中提到的“56.3%的缓存命中率”是一个值得重点关注的数据。在24小时内，DeepSeek V3和R1的输入token总数达到608B，其中342B tokens（56.3%）命中了KVCache硬盘缓存。虽然各家都未公开过自己的命中率，但超过一半的水平，在业内绝对属于非常高的水准。

要知道，DeepSeek的模型参数高达6710亿，数亿用户提问时的文本内容千差万别。在这种前提下还能保持高命中率，充分说明团队在模型整体优化上投入了大量心血。DeepSeek团队自己也表示，V3、R1推理系统的优化目标很简单：追求更大的吞吐量，更低的延迟。他们采用的是混合专家模型核心架构（MOE），简单来说，就是超大模型由许多规模较小的专家模型组成，各有分工。好比一个团队要集合各领域的专家去攻克任务，必须先把任务拆分成多个流程，分配给不同领域的专家，让他们各司其职，最后汇总结论。

由于DeepSeek-V3/R1的专家数量极多——每层256个专家，实际运行只激活8个——要实现“大吞吐、低延迟”，就必须在极短时间内高效调用每一个专家。这也就是DeepSeek文章中提到的“大规模跨节点专家并行”。这是一项难度极高的任务。如果优化分配不到位，就会导致一个6000多亿参数的超大模型，每次可能只有几个专家在运行，甚至因为一个专家没跑完，其他专家只能干等。等待往往意味着算力资源的浪费。在DeepSeek开源之前，这种混合专家模型的平衡设计，对许多AI大厂而言都是尚未攻克的难题。

此外，DeepSeek还设计了一套灵活的调度机制：白天用户访问量大、服务负荷高，就动用所有模型节点部署推理服务；晚上负荷低，则减少推理节点，把空出来的资源用于研究和训练。在最近的24小时内，V3和R1推理服务占用节点总和，高峰时最多用278个节点，平均约226.75个节点（每个节点为8块英伟达H800 GPU）。考虑到DeepSeek还有新模型项目和其他工作需要GPU，这1800到2000张H800 GPU，大概率就是现阶段V3与R1模型能够调用的“全部家当”。

此前行业普遍认为，DeepSeek的创新突破在于资源有限的条件下将效率发挥到极致。正是基于这一整套优化方案，才有了545%的成本利润率。不过，DeepSeek自己也强调，这只是一个理论值，实际收入远没有这么多——因为V3的定价更低，收费服务只占一部分，夜间还有折扣。

DeepSeek在行业内一直有个外号：“AI拼多多”。去年推出V2模型时，它就把API调用价格降至输入1元/百万tokens、输出2元/百万tokens，带动了豆包、Kimi、文心一言等厂商跟进，掀起了第一波模型价格战。最新V3模型的定价仅为OpenAI同类模型4o的1/15，R1模型也远低于同行。此次公布的高利润率，让外界真正看清了DeepSeek降价的真实“底牌”。

此前业内热议“DeepSeek模型API定价过低会不会导致巨亏”，但前研究员罗福莉去年5月在知乎上就否认过这个说法，她表示按当时的定价，大规模服务并不亏本，利润率超过50%。创始人梁文峰也曾在采访中表示，定价策略是“原则上不亏本销售，也不追求过高利润，目前的定价只在成本之上保留了一定的利润空间”。

目前，各厂商宣布接入“满血版”DeepSeek R1模型，大多以单机（8张GPU）、双机这类小规模设备为主。据记者了解，“四机”目前是考验技术能力的分水岭。而随着服务器台数增多，规模化部署、调度和优化的难度会直线上升。DeepSeek团队能够实现300多台服务器的部署工程，对技术能力的要求已经远超同行。尽管545%的利润率只是一个基于大规模部署的理论值，实际利润尚未公开，但它确实让行业看到了“赚钱的希望”。DeepSeek在公布利润率的同时，也将优化方法开源了。行业自然会积极学习这套方法去部署自家的模型。虽然对大多数公司来说，“知道”和“做到”是两回事——把同样的优化方法落地，会遇到各种各样新的问题——但至少，整个行业会在方向上做出更多尝试。

技术深挖：DeepSeek-V3/R1推理系统的优化蓝图

DeepSeek官方对推理系统的优化目标表述得非常直白：更大的吞吐量，更低的延迟。为此，他们主要做了三件事。

大规模跨节点专家并行

由于每个模型层有256个专家，但只激活8个，这种高度稀疏性决定了必须使用足够大的整体batch size，才能让每个专家都分配到足够的计算量，最终实现高吞吐、低延迟。因此，多机多卡间的专家并行是必然选择。

Prefill阶段：路由专家EP32、MLA和共享专家DP32，一个部署单元为4个节点、32个冗余路由专家，每张卡负责9个路由专家和1个共享专家。
Decode阶段：路由专家EP144、MLA和共享专家DP144，一个部署单元为18个节点、32个冗余路由专家，每张卡负责2个路由专家和1个共享专家。

计算通信重叠：让等待彻底消失

多机多卡的专家并行会带来不小的通信开销。为了不让机器空转等待，团队采用了双batch重叠技术。简单来说，就是让两个batch的计算和通信交错进行：一个batch在执行计算时，另一个batch的通信同步完成，两者互不闲置。

Prefill阶段：两个batch的计算和通信交错，计算过程恰好掩盖了通信耗时。
Decode阶段：由于不同阶段执行时间不同，团队把attention部分拆成两个stage，总计5个stage的流水线，实现了计算与通信的重叠。

尽力实现负载均衡

在大规模并行（数据并行和专家并行）环境下，只要某块GPU的计算或通信负载过重，就会成为整个系统的瓶颈，拖慢一切，其他GPU也只能空转。因此，必须为每张GPU分配均衡的任务。

PrefillLoadBalancer：核心问题在于不同DP实例上的请求个数和时长不同，导致计算量和发送量存在差异。优化目标是让每张GPU的计算量和输入token数量尽量一致。
DecodeLoadBalancer：核心问题类似，但更关注KVCache占用和请求数量的均衡。
Expert-ParallelLoadBalancer：MoE模型中存在“天然高负载”的专家，导致不同GPU上的专家计算负载不均衡。优化目标就是让每张GPU上的专家计算量尽可能一致，即最小化所有GPU的dispatch接收量的最大值。

实际运行数据

DeepSeek V3和R1全部使用H800 GPU，精度与训练一致（矩阵计算和dispatch采用FP8，core-attention和combine采用BF16），最大程度保证服务效果。白天负荷高时，全部节点跑推理；晚上负荷低时，减少推理节点，转作研究和训练。

最近24小时（2025/02/27 12:00 至 2025/02/28 12:00），V3和R1推理服务占用节点峰值278个，平均226.75个节点。假设GPU租赁成本2美元/小时，总成本为87072美元/天。

同期，输入token总数608B，其中342B（56.3%）命中KVCache缓存；输出token总数168B。平均输出速率20~22 tps，每输出一个token的KVCache长度为4989。平均每台H800的吞吐：prefill阶段（含缓存命中）约73.7k tokens/s；decode阶段约14.8k tokens/s。

如果所有tokens都按DeepSeek-R1定价计算，理论上一天收入可达562027美元，成本利润率545%。当然，实际收入远低于这个数值——V3定价更低、收费服务占比有限、夜间还有折扣。

这个数字，足以让整个AI行业停下来认真思考一番了。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：DeepSeek理论成本利润率545%技术深度解读要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2025030346805.html

ai 人工智能

上一篇：Qwen大模型与币安K线融合，智能交易助手进化之路

下一篇：广州人工智能与数字经济试验区56.5亿项目动工

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。