四张2080Ti 22G本地部署DeepSeek 671B满血版
用四张2080Ti及E5旧硬件组成88GB显存,在Ubuntu上通过Ollama运行404GB的DeepSeek-R1671B量化版模型,实测约2 18tokens s,成本1 5万元,并借助Dify和cpolar实现远程访问。
不少用户在使用 DeepSeek 官网或 App 时,常会看到“服务器繁忙”的提示。这也促使越来越多的人开始探索本地部署方案——不过,想要运行满血版 671B 模型,高昂的硬件成本让许多人望而却步。我尝试采用一套更具性价比的配置来迎接这一挑战,最终成功在个人 PC 上部署了 DeepSeek R1 671B 的满血量化版 Q4 模型,总成本控制在 1.5 万元左右,实测生成速度约 2.18 tokens/s,基本满足日常使用。下面将详细介绍具体的配置清单与调优过程。

前言
关于不同版本 DeepSeek 的参数量与本地部署要求,可参考下方图表(此处保留原文图片)。为帮助读者更直观理解满血版与蒸馏版的性能差异,我决定以更低成本进行一次部署挑战。
(原文图片描述位置保留)
(原文第二张图片描述位置保留)
1. 硬件配置
服务器:技嘉 X99
CPU:单路 E5-2673v4
显卡:2080Ti 22G * 4
内存:512G
机箱:工作站全塔机箱
电源:1200W
这套配置的设计思路是利用高性价比的老硬件堆叠显存容量——四块 22G 显存的 2080Ti,总显存达到 88G,再搭配 512G 系统内存作为缓冲,可较为从容地加载体积达 404GB 的量化模型。
(原文此处有一张硬件展示图片)
2. 软件配置
操作系统:Ubuntu 22.04.5
本地大模型运行工具:Ollama
curl -fsSL https://ollama.com/install.sh | sh
本次部署选用的是 DeepSeek R1 671B 满血量化版,模型文件大小约为 404GB:
ollama run deepseek-r1:671b
3. 调优配置
若按默认方式安装并运行 Ollama,加载此大模型时很可能出现内存溢出错误。因此需调整若干关键参数,防止因显存不足导致系统崩溃,同时允许操作系统内存作为显存的有效补充。另外,由于同时启用四张显卡,还需在初始化时加入 10 秒延迟,确保所有显卡在 Ollama 加载前完成初始化。
ExecStartPre=sleep 10
Environment="OLLAMA_HOST=0.0.0.0"
Environment="GGML_CUDA_ENABLE_UNIFIED_MEMORY=1"
(原文此处有一张配置截图)
4. 实际运行效果
通过 SSH 登录服务器后,首先查看 Ollama 环境下的已下载模型列表:
ollama list
可以看到 deepseek-r1:671b 满血全量模型已准备就绪,文件大小为 404GB。
运行模型:
ollama run deepseek-r1:671b
进入交互界面后,设置输出明细信息:
/set verbose
模型加载可能需要稍等片刻,加载完成后直接提问,即可查看实际的运行速率。
(原文此处有两张运行截图)
5. 安装 dify 服务
若希望在网页端与 DeepSeek 大模型进行交互,可通过 Docker 部署 Dify 服务来实现。首先安装 Docker:
sudo curl -fsSL https://gitee.com/tech-shrimp/docker_installer/releases/download/latest/linux.sh | bash -s docker --mirror Aliyun
接着克隆 Dify 源代码:
git clone https://github.com/langgenius/dify.git
进行环境配置:
cd dify/docker
cp .env.example .env
启动容器:
sudo docker compose up -d
Dify 接入 Ollama:
登录 Dify 主界面后,依次进入“设置”→“模型供应商”→“Ollama”,填写模型名称、基础 URL 等参数,并开启 Vision 支持后保存。
(原文此处有两张配置截图)
返回主界面,创建空白应用,选择 deepseek-r1:671b 模型,在文本框中编辑文字即可开始对话。
(原文此处有一张对话界面截图)
6. 安装内网穿透远程访问
若希望其他设备能在不同网络环境下远程访问本地部署的 DeepSeek R1 671B,可利用 cpolar 实现内网穿透。
sudo curl https://get.cpolar.sh | sh
安装完成后检查 cpolar 服务状态:
sudo systemctl status cpolar
(原文此处有一张状态截图)
cpolar 安装并启动服务后,在浏览器中输入 Ubuntu 主机 IP 加 9200 端口(http://localhost:9200),登录 cpolar 管理界面:
点击左侧仪表盘的“隧道管理”→“创建隧道”:
- 隧道名称:可自定义(例如 dify)
- 协议:http
- 本地地址:80
- 域名类型:随机域名
- 地区:选择 China Top
点击创建。
(原文此处有一张创建隧道截图)
创建成功后,在左侧“在线隧道列表”中会生成两个公网地址。在其他电脑上使用任意一个网址即可通过浏览器访问。
(原文此处有一张在线隧道列表截图)
需要说明的是,cpolar 生成的随机公网地址适合临时使用,24 小时内会发生变化。对于需要长期稳定远程访问的场景,建议配置固定的二级子域名,不仅带宽更高,地址也更容易记忆。
配置固定 Dify 公网地址
注意:配置固定子域名需使用 cpolar 基础套餐或以上版本(不同套餐对应不同带宽)。登录 cpolar 官网,点击左侧“预留”→“保留二级子域名”,地区选择“China VIP”,设置子域名名称并填写备注信息,点击保留。
(原文此处有一张官网配置截图)
返回 cpolar Web UI 管理界面,点击左侧仪表盘的“隧道管理”→“隧道列表”,找到 dify 隧道并点击编辑。
修改隧道信息:
- 域名类型:选择“二级子域名”
- Sub Domain:填写已成功保留的二级子域名
- 地区:China VIP
点击更新。
(原文此处有一张编辑隧道截图)
更新完成后,在线隧道列表中原有的随机地址即变为固定的二级子域名地址。
(原文此处有一张更新后的隧道列表截图)
使用固定的公网地址访问 Dify 界面,可以看到访问成功。如此一来,团队协作时可将该地址分享给同事,无需每个人都重新部署,大大提升了工作效率。
(原文此处有一张访问成功的截图)
总结
本次挑战利用多款上市多年但依然具有出色性价比的旧硬件,成功实现了在个人 PC 上部署 DeepSeek 满血版大模型的目标。同时,配合 cpolar 内网穿透工具,可将本地服务发布至公网,方便朋友或同事远程访问,既避免了重复部署的麻烦,也有效绕开了 DeepSeek 官方服务的拥堵问题。
目前我们正在测试新的部署方案,旨在进一步提升每秒 tokens 生成速率,同时继续降低硬件投入成本。如果在本地配置过程中遇到任何问题,欢迎随时交流。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:四张2080Ti 22G本地部署DeepSeek 671B满血版要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。
SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。
需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,
艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来
- 日榜
- 周榜
- 月榜
热点快看
