Ubuntu Ollama 部署 DeepSeek-R1:32B 聊天大模型流式调用示例
高性能聊天大模型的本地部署,最近成了不少开发者的刚需。DeepSeek-R1:32B 发布后,风头直追 ChatGPT o1,可官方服务动不动就“服务器繁忙”,实在让人头疼。与其等官方扩容,不如自己动手——在 Ubuntu 上通过 Docker 部署一套 Ollama + DeepSeek 环境,再
高性能聊天大模型的本地部署,最近成了不少开发者的刚需。DeepSeek-R1:32B 发布后,风头直追 ChatGPT o1,可官方服务动不动就“服务器繁忙”,实在让人头疼。与其等官方扩容,不如自己动手——在 Ubuntu 上通过 Docker 部署一套 Ollama + DeepSeek 环境,再配上流式接口调用,既稳定又可控。下面就把完整流程拆开来讲。
先说几个关键判断:DeepSeek 最近确实火,官方压力太大,自己部署是最省心的替代方案。部署基于 Docker,前提是让 Docker 能调用 GPU——纯 CPU 跑不但慢,内存消耗也惊人。整个过程除了模型下载速度比较玄学,环境配置一次搞定后基本没有坑。
服务器基础资源
这次演示用的服务器配置如下:
- 操作系统:Ubuntu 24.04
- 显卡:Tesla P100-PCIE-16GB × 2
- CPU:48核
- 内存:64G
这么一套资源跑 32B 模型还算从容,如果硬件偏弱,后面也会提到轻量模型的替代方案。
运行 Docker 命令
先启动 Ollama 容器,注意加上 --gpus=all 才能启用 GPU 加速。持久化目录挂载到宿主机,方便模型文件管理。
docker run --name ollama -d --restart=always --gpus=all -v /data/docker/ollama:/root/.ollama -p 11434:11434 ollama/ollama
容器启动后,进入容器内执行后续操作:
docker exec -it ollama /bin/sh
然后下载并运行 32B 模型:
ollama run deepseek-r1:32b
如果资源不够,可以退而求其次,选择 1.5B 或 7B 的版本:
ollama run deepseek-r1:1.5b
下载提示
模型下载速度是个变数。开局如果有 MB/s 级别的速度,说明网络条件不错,但过一会可能降到几百 KB。一个实操技巧:直接 Ctrl+C 中断下载,然后重新执行下载命令,速度又能提上去。重复这个过程,能把大模型“分段加速”拉下来——听起来有点取巧,但实测有效。
运行模型
几个常用命令先列出来:
ollama pull deepseek-r1:1.5b //拉取模型
ollama run deepseek-r1:1.5b //运行模型
ollama list //查看所有模型
如果要在局域网内其他设备访问,需要放开防火墙端口:
sudo ufw allow 11434/tcp
先看看本地已拉取了哪些模型:
ollama list
好,现在正式运行 32B 模型:
ollama run deepseek-r1:32b
进入交互模式后直接发消息。第一个问题:“DeepSeek为何如此优秀?”——回答比较简短、官方。换一个问题:“如何看待目前的各种AI产品?”——这次回复就详尽多了,能看出模型的思维链能力确实不赖。
模型跑起来之后,还可以通过 HTTP 接口查看 Ollama 的运行状态:
http://192.168.0.120:11434/
通过这个 API 查看已部署的模型列表:
http://192.168.0.120:11434/api/tags
可以看到,当前 Ollama 上一共部署了三个模型,可以根据需求切换。
GPU 资源耗费情况
跑 32B 模型时,单张 P100 16GB 显存还剩 5GB 左右,意味着还有余量给其他业务。如果是双卡,负载更均衡。
接口方式调用 DeepSeek R1,控制台流式输出
Ollama 部署好模型后,直接通过 REST API 调用即可,比在 Docker 里敲命令更方便。下面是用 .NET 实现的流式调用示例。
先引入 NuGet 包:
Codeblaze.SemanticKernel.Connectors.Ollama
完整代码如下(基于 Semantic Kernel 实现流式输出):
static async Task Main(string[] args)
{
var builder = Kernel.CreateBuilder()
.AddOllamaChatCompletion("deepseek-r1:32b", "http://192.168.0.120:11434");
builder.Services.AddScoped();
var kernel = builder.Build();
while (true)
{
string input = "";
Console.Write("请输入: ");
input = Console.ReadLine();
Console.WriteLine("");
var contents = kernel.InvokePromptStreamingAsync(input);
if (contents == null)
{
Console.WriteLine("Error: 内容为空!");
continue;
}
else
{
Console.WriteLine($"\nDeepseek:\n");
await foreach (var item in contents)
{
Console.Write(item.ToString());
}
}
Console.WriteLine("");
}
}
这段代码启动后进入循环,接收输入后通过流式接口实时输出回复,效果跟直接在 Docker 里用命令行一样,但更方便集成到自己的应用中。实际跑起来,响应速度取决于模型大小和 GPU 性能,32B 模型单卡 P100 基本能做到秒级响应,已经足够日常使用。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Ubuntu Ollama 部署 DeepSeek-R1:32B 聊天大模型流式调用示例要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点RAG落地的关键在于数据检索而非大模型。直接大模型、微调与RAG各有适用场景。检索效果受分块粒度、排序策略及混合检索影响。常见误解包括认为RAG总是更优、简单余弦检索足够、更多文档效果更好。应注重数据质量,采用渐进式部署和用户反馈闭环。
微软推出AutoGenStudio低代码工具,业务人员可通过可视化拖拽组装模型、技能和记忆组件,构建智能体工作流。工具集成实时监控、调试评估功能,支持导出JSON配置文件进行部署,降低开发门槛。
英国国民保健署正将人工智能引入医疗体系,智能手机可居家监测肾脏疾病,穿戴贴片实时捕捉心律不齐,AI加速乳腺癌筛查分析。这些技术有望改善筛查、癌症治疗和中风护理,但全面应用仍需长期推进。
近年来,人工智能、云计算与大数据无疑是科技领域最受瞩目的三大趋势。其中,人工智能技术已深入渗透到各行各业,成为名副其实的核心驱动力。其背后的原因并不难理解——它不仅能带来实实在在的效益,更关键的是,正大力推动制造业向智能化方向转型升级。 众多学者同样对人工智能的发展前景给予了高度评价。他们认为,未来
- 日榜
- 周榜
- 月榜
热点快看
