面包屑图标 当前位置: 首页
AI资讯
热点详情

Ubuntu Ollama 部署 DeepSeek-R1:32B 聊天大模型流式调用示例

AI热点日报
AI热点日报时间:2026-07-01
热点解读

高性能聊天大模型的本地部署,最近成了不少开发者的刚需。DeepSeek-R1:32B 发布后,风头直追 ChatGPT o1,可官方服务动不动就“服务器繁忙”,实在让人头疼。与其等官方扩容,不如自己动手——在 Ubuntu 上通过 Docker 部署一套 Ollama + DeepSeek 环境,再

高性能聊天大模型的本地部署,最近成了不少开发者的刚需。DeepSeek-R1:32B 发布后,风头直追 ChatGPT o1,可官方服务动不动就“服务器繁忙”,实在让人头疼。与其等官方扩容,不如自己动手——在 Ubuntu 上通过 Docker 部署一套 Ollama + DeepSeek 环境,再配上流式接口调用,既稳定又可控。下面就把完整流程拆开来讲。

基于Ubuntu Ollama 部署 DeepSeek-R1:32B 聊天大模型(附带流式接口调用示例)

先说几个关键判断:DeepSeek 最近确实火,官方压力太大,自己部署是最省心的替代方案。部署基于 Docker,前提是让 Docker 能调用 GPU——纯 CPU 跑不但慢,内存消耗也惊人。整个过程除了模型下载速度比较玄学,环境配置一次搞定后基本没有坑。

服务器基础资源

这次演示用的服务器配置如下:

  • 操作系统:Ubuntu 24.04
  • 显卡:Tesla P100-PCIE-16GB × 2
  • CPU:48核
  • 内存:64G

这么一套资源跑 32B 模型还算从容,如果硬件偏弱,后面也会提到轻量模型的替代方案。

运行 Docker 命令

先启动 Ollama 容器,注意加上 --gpus=all 才能启用 GPU 加速。持久化目录挂载到宿主机,方便模型文件管理。

docker run --name ollama -d --restart=always --gpus=all -v /data/docker/ollama:/root/.ollama -p 11434:11434 ollama/ollama

容器启动后,进入容器内执行后续操作:

docker exec -it ollama /bin/sh

然后下载并运行 32B 模型:

ollama run deepseek-r1:32b

如果资源不够,可以退而求其次,选择 1.5B 或 7B 的版本:

ollama run deepseek-r1:1.5b

下载提示

模型下载速度是个变数。开局如果有 MB/s 级别的速度,说明网络条件不错,但过一会可能降到几百 KB。一个实操技巧:直接 Ctrl+C 中断下载,然后重新执行下载命令,速度又能提上去。重复这个过程,能把大模型“分段加速”拉下来——听起来有点取巧,但实测有效。

运行模型

几个常用命令先列出来:

ollama pull deepseek-r1:1.5b   //拉取模型
ollama run deepseek-r1:1.5b   //运行模型
ollama list                //查看所有模型

如果要在局域网内其他设备访问,需要放开防火墙端口:

sudo ufw allow 11434/tcp

先看看本地已拉取了哪些模型:

ollama list
(模型列表截图)

好,现在正式运行 32B 模型:

ollama run deepseek-r1:32b

进入交互模式后直接发消息。第一个问题:“DeepSeek为何如此优秀?”——回答比较简短、官方。换一个问题:“如何看待目前的各种AI产品?”——这次回复就详尽多了,能看出模型的思维链能力确实不赖。

模型跑起来之后,还可以通过 HTTP 接口查看 Ollama 的运行状态:

http://192.168.0.120:11434/

通过这个 API 查看已部署的模型列表:

http://192.168.0.120:11434/api/tags
(API返回的模型列表截图)

可以看到,当前 Ollama 上一共部署了三个模型,可以根据需求切换。

GPU 资源耗费情况

跑 32B 模型时,单张 P100 16GB 显存还剩 5GB 左右,意味着还有余量给其他业务。如果是双卡,负载更均衡。

(GPU 资源监控截图)

接口方式调用 DeepSeek R1,控制台流式输出

Ollama 部署好模型后,直接通过 REST API 调用即可,比在 Docker 里敲命令更方便。下面是用 .NET 实现的流式调用示例。

先引入 NuGet 包:

Codeblaze.SemanticKernel.Connectors.Ollama

完整代码如下(基于 Semantic Kernel 实现流式输出):

static async Task Main(string[] args)
{
    var builder = Kernel.CreateBuilder()
        .AddOllamaChatCompletion("deepseek-r1:32b", "http://192.168.0.120:11434");
    builder.Services.AddScoped();
    var kernel = builder.Build();

    while (true)
    {
        string input = "";
        Console.Write("请输入: ");
        input = Console.ReadLine();
        Console.WriteLine("");

        var contents = kernel.InvokePromptStreamingAsync(input);
        if (contents == null)
        {
            Console.WriteLine("Error: 内容为空!");
            continue;
        }
        else
        {
            Console.WriteLine($"\nDeepseek:\n");
            await foreach (var item in contents)
            {
                Console.Write(item.ToString());
            }
        }
        Console.WriteLine("");
    }
}

这段代码启动后进入循环,接收输入后通过流式接口实时输出回复,效果跟直接在 Docker 里用命令行一样,但更方便集成到自己的应用中。实际跑起来,响应速度取决于模型大小和 GPU 性能,32B 模型单卡 P100 基本能做到秒级响应,已经足够日常使用。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Ubuntu Ollama 部署 DeepSeek-R1:32B 聊天大模型流式调用示例要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/finetuning/2025022204761.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-01 19:58
企业实施RAG常见误解澄清及升级预告

RAG落地的关键在于数据检索而非大模型。直接大模型、微调与RAG各有适用场景。检索效果受分块粒度、排序策略及混合检索影响。常见误解包括认为RAG总是更优、简单余弦检索足够、更多文档效果更好。应注重数据质量,采用渐进式部署和用户反馈闭环。

AI热点2026-07-01 19:58
微软AutoGen Studio低代码开发智能体

微软推出AutoGenStudio低代码工具,业务人员可通过可视化拖拽组装模型、技能和记忆组件,构建智能体工作流。工具集成实时监控、调试评估功能,支持导出JSON配置文件进行部署,降低开发门槛。

AI热点2026-07-01 19:58
人工智能产品将有望广泛应用于整个医疗体系

英国国民保健署正将人工智能引入医疗体系,智能手机可居家监测肾脏疾病,穿戴贴片实时捕捉心律不齐,AI加速乳腺癌筛查分析。这些技术有望改善筛查、癌症治疗和中风护理,但全面应用仍需长期推进。

AI热点2026-07-01 19:58
未来人工智能发展的主要影响

近年来,人工智能、云计算与大数据无疑是科技领域最受瞩目的三大趋势。其中,人工智能技术已深入渗透到各行各业,成为名副其实的核心驱动力。其背后的原因并不难理解——它不仅能带来实实在在的效益,更关键的是,正大力推动制造业向智能化方向转型升级。 众多学者同样对人工智能的发展前景给予了高度评价。他们认为,未来

延伸阅读