面包屑图标 当前位置: 首页
AI资讯
热点详情

DeepSeek大模型部署实践详解与操作指南

AI热点日报
AI热点日报时间:2026-07-01
热点解读

模型推理究竟是如何工作的?整个流程实际上可以拆解为两个关键阶段:预填充(Prefill)和解码(Decode)。首先来看 Prefill 阶段,该阶段会将输入的所有 Token 一次性喂给模型,并行计算出每个 Token 的隐藏状态(即 hidden states)。这些隐藏状态后续用途广泛,例如为

模型推理究竟是如何工作的?整个流程实际上可以拆解为两个关键阶段:预填充(Prefill)和解码(Decode)。首先来看 Prefill 阶段,该阶段会将输入的所有 Token 一次性喂给模型,并行计算出每个 Token 的隐藏状态(即 hidden states)。这些隐藏状态后续用途广泛,例如为 Decode 阶段生成内容、执行分类任务或进行其他下游处理。而 Decode 阶段则每次只接收一个 Token,借助 KV-Cache 避免重复计算;每一层的自注意力机制读取已有的 KV-Cache,再生成新的 KV 值。

以下几个要点值得关注:

  • 统一的 61 层结构:Prefill 和 Decode 共用这 61 层,没有额外的子层划分。
  • Prefill 的特点:一次性输入所有 Token,并行计算,无需 KV-Cache。
  • Decode 的特点:每次仅输入 1 个 Token,依赖 KV-Cache 来降低计算开销。
  • MoE(稀疏专家):这是每层结构的一部分,无论 Prefill 还是 Decode,都会按需启用,通过稀疏计算提升效率与扩展能力。

DeepSeek部署实践解析

一、DeepSeek R1 的部署架构解析

从逻辑架构来看,R1 设有 61 个 decoder 层,每层配置了 256 个路由专家、8 个激活专家和 1 个共享专家。最简部署方案可采用 SGLang 方式,在 8 张 MI300X 或 8 张 H200 上运行。当然,面对大规模并发场景,还有更优化的策略。

首先说说模型逻辑:每一层都有 256 个路由专家,但推理时并非所有专家同时工作;对于每个输入 token,仅激活其中 8 个——也就是那 8 个激活专家。此外,有 1 个共享专家,所有 token 都必须经过它,无需经过稀疏路由。

Prefill 阶段,官方配置为 EP32 / DP32。集群规模为 4 个节点,每个节点 8 张 GPU,共计 32 张 GPU。部署时,将 256 个路由专家分布到 32 张卡上,但每张卡并非简单放置 8 个,而是放 9 个——多出 1 个冗余副本。表面上看是 32 张卡 × 9 个路由专家 = 288 份,比 256 多了 32 个冗余副本。这样做的目的很直接:让那些频繁被调度的专家拥有更多副本,在多卡之间平衡负载。同时,共享专家采用数据并行,每张卡复制一份,因此每张卡实际承载的是“9 个路由专家 + 1 个共享专家”。逻辑上仍是“256+1”,只是物理上增加了冗余。

到了Decode 阶段,配置变为 EP144 / DP144。此时需要更多节点:18 个节点 × 8 张 GPU = 144 张 GPU。256 个路由专家被重新分布到 144 张卡上,每张卡放置 2 个,结果又是 144 × 2 = 288 份,比 256 多了 32 个冗余。共享专家继续数据并行,每张卡最终包含“2 个路由专家 + 1 个共享专家”。同样的逻辑框架,只是并行规模改变,专家分布也随之调整。

那么8 个激活专家是如何与分布式布局关联的?简单来说,当一个 token 进入时,门控路由系统会从 256 个(物理上是 288 个)路由专家中挑选出最匹配的 8 个来执行计算。无论 Prefill 阶段每卡有 9 个专家,还是 Decode 阶段每卡只有 2 个,门控系统都能跨卡、跨专家副本找到那 8 个,并将计算负载路由过去。冗余副本越多,单卡拥堵的概率越低,整体吞吐量自然随之提升。

一句话总结:从模型逻辑看,就是“256 个路由专家 + 8 个激活专家 + 1 个共享专家”。但部署到数十上百张 GPU 时,会将 256 个专家带上冗余副本分散到不同卡上。32 张卡时,每卡 9 个,总共 288 份;144 张卡时,每卡 2 个,也是 288 份——都是“256 + 32 冗余”。共享专家则简单地在每卡复制一份(DP)。最终形成官方提到的两个配置:Prefill 阶段 EP32 / DP32,每卡“9 路由 + 1 共享”;Decode 阶段 EP144 / DP144,每卡“2 路由 + 1 共享”。而“每层 256+1”的 MoE 结构以及“8 个激活专家”的框架,始终不变。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepSeek大模型部署实践详解与操作指南要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/finetuning/2025030270142.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-02 14:27
Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析

GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。

AI热点2026-07-02 14:27
一款实用的YouTube视频高亮标注Chrome浏览器扩展插件

Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。

AI热点2026-07-02 14:27
WhisperNotes智能音频笔记应用

一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。

AI热点2026-07-02 14:27
Sharpen AI:Chrome扩展秒转Google Meet为笔记邮件任务

专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。

延伸阅读