数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

Ubuntu Ollama 部署 DeepSeek-R1:32B 聊天大模型流式调用示例

AI热点日报时间：2026-07-01

热点解读

高性能聊天大模型的本地部署，最近成了不少开发者的刚需。DeepSeek-R1:32B 发布后，风头直追 ChatGPT o1，可官方服务动不动就“服务器繁忙”，实在让人头疼。与其等官方扩容，不如自己动手——在 Ubuntu 上通过 Docker 部署一套 Ollama + DeepSeek 环境，再

高性能聊天大模型的本地部署，最近成了不少开发者的刚需。DeepSeek-R1:32B 发布后，风头直追 ChatGPT o1，可官方服务动不动就“服务器繁忙”，实在让人头疼。与其等官方扩容，不如自己动手——在 Ubuntu 上通过 Docker 部署一套 Ollama + DeepSeek 环境，再配上流式接口调用，既稳定又可控。下面就把完整流程拆开来讲。

基于Ubuntu Ollama 部署 DeepSeek-R1:32B 聊天大模型（附带流式接口调用示例）

先说几个关键判断：DeepSeek 最近确实火，官方压力太大，自己部署是最省心的替代方案。部署基于 Docker，前提是让 Docker 能调用 GPU——纯 CPU 跑不但慢，内存消耗也惊人。整个过程除了模型下载速度比较玄学，环境配置一次搞定后基本没有坑。

服务器基础资源

这次演示用的服务器配置如下：

操作系统：Ubuntu 24.04
显卡：Tesla P100-PCIE-16GB × 2
CPU：48核
内存：64G

这么一套资源跑 32B 模型还算从容，如果硬件偏弱，后面也会提到轻量模型的替代方案。

运行 Docker 命令

先启动 Ollama 容器，注意加上 --gpus=all 才能启用 GPU 加速。持久化目录挂载到宿主机，方便模型文件管理。

docker run --name ollama -d --restart=always --gpus=all -v /data/docker/ollama:/root/.ollama -p 11434:11434 ollama/ollama

容器启动后，进入容器内执行后续操作：

docker exec -it ollama /bin/sh

然后下载并运行 32B 模型：

ollama run deepseek-r1:32b

如果资源不够，可以退而求其次，选择 1.5B 或 7B 的版本：

ollama run deepseek-r1:1.5b

下载提示

模型下载速度是个变数。开局如果有 MB/s 级别的速度，说明网络条件不错，但过一会可能降到几百 KB。一个实操技巧：直接 Ctrl+C 中断下载，然后重新执行下载命令，速度又能提上去。重复这个过程，能把大模型“分段加速”拉下来——听起来有点取巧，但实测有效。

运行模型

几个常用命令先列出来：

ollama pull deepseek-r1:1.5b   //拉取模型
ollama run deepseek-r1:1.5b   //运行模型
ollama list                //查看所有模型

如果要在局域网内其他设备访问，需要放开防火墙端口：

sudo ufw allow 11434/tcp

先看看本地已拉取了哪些模型：

ollama list

（模型列表截图）

好，现在正式运行 32B 模型：

ollama run deepseek-r1:32b

进入交互模式后直接发消息。第一个问题：“DeepSeek为何如此优秀？”——回答比较简短、官方。换一个问题：“如何看待目前的各种AI产品？”——这次回复就详尽多了，能看出模型的思维链能力确实不赖。

模型跑起来之后，还可以通过 HTTP 接口查看 Ollama 的运行状态：

http://192.168.0.120:11434/

通过这个 API 查看已部署的模型列表：

http://192.168.0.120:11434/api/tags

（API返回的模型列表截图）

可以看到，当前 Ollama 上一共部署了三个模型，可以根据需求切换。

GPU 资源耗费情况

跑 32B 模型时，单张 P100 16GB 显存还剩 5GB 左右，意味着还有余量给其他业务。如果是双卡，负载更均衡。

（GPU 资源监控截图）

接口方式调用 DeepSeek R1，控制台流式输出

Ollama 部署好模型后，直接通过 REST API 调用即可，比在 Docker 里敲命令更方便。下面是用 .NET 实现的流式调用示例。

先引入 NuGet 包：

Codeblaze.SemanticKernel.Connectors.Ollama

完整代码如下（基于 Semantic Kernel 实现流式输出）：

static async Task Main(string[] args)
{
    var builder = Kernel.CreateBuilder()
        .AddOllamaChatCompletion("deepseek-r1:32b", "http://192.168.0.120:11434");
    builder.Services.AddScoped();
    var kernel = builder.Build();

    while (true)
    {
        string input = "";
        Console.Write("请输入: ");
        input = Console.ReadLine();
        Console.WriteLine("");

        var contents = kernel.InvokePromptStreamingAsync(input);
        if (contents == null)
        {
            Console.WriteLine("Error: 内容为空!");
            continue;
        }
        else
        {
            Console.WriteLine($"\nDeepseek:\n");
            await foreach (var item in contents)
            {
                Console.Write(item.ToString());
            }
        }
        Console.WriteLine("");
    }
}

这段代码启动后进入循环，接收输入后通过流式接口实时输出回复，效果跟直接在 Docker 里用命令行一样，但更方便集成到自己的应用中。实际跑起来，响应速度取决于模型大小和 GPU 性能，32B 模型单卡 P100 基本能做到秒级响应，已经足够日常使用。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Ubuntu Ollama 部署 DeepSeek-R1:32B 聊天大模型流式调用示例要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/finetuning/2025022204761.html

ai 人工智能

上一篇：GraphRAG原理详解：图增强检索生成技术全解析

下一篇：Gartner数据与分析领域十大技术趋势发布

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周企业实施RAG常见误解澄清及升级预告 02 / 本周微软AutoGen Studio低代码开发智能体 03 / 本周人工智能产品将有望广泛应用于整个医疗体系 04 / 本周未来人工智能发展的主要影响 05 / 本周VS Code与Cline联手MCP-server实现大模型万物互联

01 / 本月企业实施RAG常见误解澄清及升级预告 02 / 本月微软AutoGen Studio低代码开发智能体 03 / 本月人工智能产品将有望广泛应用于整个医疗体系 04 / 本月未来人工智能发展的主要影响 05 / 本月VS Code与Cline联手MCP-server实现大模型万物互联

热点快看

07-01 19:58企业实施RAG常见误解澄清及升级预告 07-01 19:58微软AutoGen Studio低代码开发智能体 07-01 19:58人工智能产品将有望广泛应用于整个医疗体系 07-01 19:58未来人工智能发展的主要影响 07-01 19:58VS Code与Cline联手MCP-server实现大模型万物互联

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别