Ollama部署DeepSeek-R1 70B模型完整教程
部署一个70B参数的DeepSeek-R1大模型看似复杂,实则流程清晰,仅需几个关键步骤。从模型文件下载到启动服务并实现远程访问,每个环节都有成熟的工具和配置方法。下文将逐步拆解,助您快速上手。 Ollama部署DeepSeek-R1 70B大模型完整指南 一、模型下载与准备 1 获取GGUF格式
部署一个70B参数的DeepSeek-R1大模型看似复杂,实则流程清晰,仅需几个关键步骤。从模型文件下载到启动服务并实现远程访问,每个环节都有成熟的工具和配置方法。下文将逐步拆解,助您快速上手。
Ollama部署DeepSeek-R1 70B大模型完整指南
一、模型下载与准备
1. 获取GGUF格式模型文件
推荐通过ModelScope平台直接获取已量化处理的GGUF模型文件。选择Q5_K_M量化级别是平衡性能与资源消耗的明智之选——在保持约94%精度的同时,将模型体积压缩至49GB,对存储和内存要求更为友好。
pip install modelscope
modelscope download --model unsloth/DeepSeek-R1-Distill-Llama-70B-GGUF DeepSeek-R1-Distill-Llama-70B-Q5_K_M.gguf --local_dir /DeepSeek-R1-Distill-Llama-70B-GGUF
技术说明:GGUF(GPT-Generated Unified Format)是一种专为大语言模型设计的跨平台格式,支持CPU/GPU混合推理,尤其适合在Apple Silicon设备或纯CPU环境下运行。Q5_K_M量化策略在保留约94%模型精度的同时,将文件体积压缩至49GB,实现存储与性能的最佳平衡。
二、Ollama环境配置
1. 安装Ollama推理框架
Ollama的安装极为简便,仅需一行命令即可完成。根据官方文档指引,执行以下脚本即可快速部署:
curl -fsSL https://ollama.com/install.sh | sudo sh
2. 配置远程访问(可选)
若需在局域网内其他设备上访问模型服务,需修改Ollama启动参数。执行以下命令编辑系统服务文件:
sudo nano /etc/systemd/system/ollama.service
在[Service]块里添加两行环境变量:
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
然后刷新服务配置并重启:
sudo systemctl daemon-reload
sudo systemctl restart ollama
三、模型配置文件编写
模型文件准备好后,需编写Modelfile以指导Ollama如何加载模型。关键配置包括GGUF文件路径、对话模板(template)以及若干运行时参数。以下是一个可直接使用的模板范例:
# 这里填入gguf文件路径
FROM /home/DeepSeek-R1-Distill-Llama-70B-GGUF/DeepSeek-R1-Distill-Llama-70B-Q5_K_M.gguf
# 以下为模型模板配置
TEMPLATE """{{- if .System }}{{ .System }}{{ end }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1}}
{{- if eq .Role "user" }}<|begin▁of▁sentence|>{{ .Content }}
{{- else if eq .Role "assistant" }}<|end▁of▁sentence|>{{ .Content }}{{- if not $last }}<|end▁of▁sentence|>{{- end }}
{{- end }}
{{- if and $last (ne .Role "assistant") }}<|end▁of▁sentence|>{{- end }}
{{- end }}"""
PARAMETER stop "<|end▁of▁sentence|>"
PARAMETER stop "<|begin▁of▁sentence|>"
PARAMETER stop "用户:"
PARAMETER stop "助手:"
PARAMETER num_ctx 12800
参数说明:
stop: 配置对话终止符num_ctx: 扩展上下文窗口至12800 tokens,支持更长对话
四、模型加载与运行
1. 创建Ollama模型实例
完成Modelfile编写后,使用ollama create命令将其注册为模型实例:
ollama create DeepSeek-R1-Distill-Llama-70B-Q5_K_M -f /home/DeepSeek-R1-Distill-Llama-70B-GGUF/Modelfile
2. 验证模型列表
创建完毕后,通过ollama list验证模型是否正确加载:
ollama list
# 预期输出
NAME ID SIZE MODIFIED
DeepSeek-R1-Distill-Llama-70B-Q5_K_M:latest dd7ae729f6fc 49 GB 46 minutes ago
3. 启动模型服务
最后,运行模型进入交互式终端:
ollama run DeepSeek-R1-Distill-Llama-70B-Q5_K_M:latest
当命令行出现对话提示符,表明模型已成功运行,此时即可输入测试问题进行交互。
五、远程访问验证
若之前配置了远程访问,可在其他设备上通过服务器IP加端口11434访问,浏览器将显示'Ollama is running'页面,确认服务已对外暴露。
访问 http://{服务器IP}:11434/,出现以下界面即表示服务正常运行:
页面显示 Ollama is running 即代表可远程访问
六、高级应用场景
模型部署完成后,扩展应用场景丰富多样。可接入Open WebUI搭建简洁的可视化聊天界面,或通过RESTful API将模型能力集成至现有应用,亦可借助LangChain编排更复杂的自动化工作流。这些方向均有成熟的工具链支持,后续可针对具体需求深入探讨。
- Open WebUI:搭建可视化聊天界面
- API集成:通过RESTful API对接应用程序
- LangChain:构建自动化AI工作流

