面包屑图标 当前位置: 首页
AI资讯
热点详情

vLLM生产环境部署DeepSeek 算力减半吞吐增十倍

AI热点日报
AI热点日报时间:2026-07-04
热点解读

私有化部署DeepSeek-R1的新选择,vLLM让算力减半、吞吐增十倍! 坦白说,之前用Ollama部署deepseek-r1:32b模型确实方便,一条命令搞定,适合个人快速上手。但到了企业生产环境,事情就没那么简单了——高并发、低延迟、资源利用率,哪一个都是硬指标。这时候,vLLM和SGLang

私有化部署DeepSeek-R1的新选择,vLLM让算力减半、吞吐增十倍!

坦白说,之前用Ollama部署deepseek-r1:32b模型确实方便,一条命令搞定,适合个人快速上手。但到了企业生产环境,事情就没那么简单了——高并发、低延迟、资源利用率,哪一个都是硬指标。这时候,vLLM和SGLang这类专业推理框架才是正道。本文就聚焦vLLM,看看它怎么把DeepSeek-R1的部署效能拉满。

使用 vLLM 生产环境部署 DeepSeek,算力减半、吞吐增十倍!

Ollama 与 vLLM:定位截然不同的两个工具

先摆个结论:Ollama是轻量级本地工具,适合个人开发者和小规模实验;vLLM则是为高并发、低延迟的企业级场景量身打造的生产级推理框架。核心差异如下:

对比维度 Ollama vLLM
核心定位 轻量级本地化工具,适合个人开发者和小规模实验 生产级推理框架,专注高并发、低延迟的企业级场景
硬件要求 支持 CPU 和 GPU,低显存占用(默认使用量化模型) 必须依赖 NVIDIA GPU,显存占用高
模型支持 内置预训练模型库(支持1700+模型),自动下载量化版本(int4为主) 需手动下载原始模型文件(如 HuggingFace 格式),支持更广泛模型
部署难度 一键安装,开箱即用,无需编程基础 需配置 Python 环境、CUDA 驱动,依赖技术经验
性能特性 单次推理速度快,但并发处理能力弱 高吞吐量,支持动态批处理和千级并发请求
资源管理 灵活调整资源占用,空闲时自动释放显存 显存占用固定,需预留资源应对峰值负载

vLLM 凭什么能“算力减半、吞吐增十倍”?

vLLM 的核心优势在于它的全新算法。与 HuggingFace Transformers 相比,吞吐量最高可提升 24 倍,而且无需对模型架构做任何改动。在官方测试中,他们分别用 LLaMA-7B(NVIDIA A10G GPU)和 LLaMA-13B(NVIDIA A100 GPU 40GB)进行对比,从 ShareGPT 数据集采样输入/输出长度,结果非常直观:vLLM 的吞吐量比 HuggingFace Transformers 高 24 倍,比 HuggingFace Text Generation Inference(TGI)高 3.5 倍。这才是真正值得关注的地方。

使用 vLLM 生产环境部署 DeepSeek,算力减半、吞吐增十倍!

图片不必看懂,知道它“牛就完事了”。具体性能数据可以看官方博客:https://blog.vllm.ai/2024/09/05/perf-update.html

环境准备:腾讯云高性能应用服务

本次部署选用腾讯云的高性能应用服务,配置如下:

  • Ubuntu 20.04
  • 环境配置:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
  • 算力类型:两卡GPU基础型 - 2*16GB+ | 16+TFlops SP | CPU - 16 核 | 内存 - 64GB

安装 Conda

使用 conda 创建 python 环境,直接贴脚本:

  1. wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh && chmod +x Miniconda3-latest-Linux-x86_64.sh
  2. ./Miniconda3-latest-Linux-x86_64.sh -b
  3. source /root/miniconda3/bin/activate
  4. conda init
  5. conda config --set auto_activate_base false

使用 vLLM 部署 DeepSeek-R1

先创建 python 环境:

  1. conda create -n vllm python=3.12 -y
  2. conda activate vllm

安装 vllm 和 modelscope:

  1. pip install vllm modelscope

使用 modelscope 下载 DeepSeek-R1 模型(这里用的是 1.5B 蒸馏版本,方便测试):

  1. mkdir -p /data/models && modelscope download --model 'deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B' --local_dir '/data/models/DeepSeek-R1-Distill-Qwen-1.5B'

然后启动 vLLM 服务:

  1. vllm serve "/data/models/DeepSeek-R1-Distill-Qwen-1.5B" --served-model-name "DeepSeek-R1" --load-format "safetensors" --gpu-memory-utilization 0.8 --tensor-parallel-size 2 --dtype half --port 8000

如果遇到“Bfloat16 is only supported on GPUs with compute capability of at least 8.0.”的警告,说明你的 GPU(比如 T4)不支持 bfloat16,按提示加上 --dtype=half 即可。

各参数含义:

  • --tensor-parallel-size:和 GPU 数量设置一致
  • --gpu-memory-utilization:控制使用显存的百分比
  • --served-model-name:API 中使用的模型名称
  • --disable-log-requests:禁用日志记录请求(可选)

更多参数可参考官方文档:https://docs.vllm.ai/en/latest/serving/engine_args.html

使用 Postman 测试

启动成功后,浏览器打开 http://ip:8000/ 即可查看状态,接口文档在 http://ip:8000/docs。用 Postman 调用时,请求体如下:

  1. {
  2. "model": "DeepSeek-R1",
  3. "messages": [
  4. {
  5. "role": "user",
  6. "content": "Hi,我叫小渣渣。请问你是谁?"
  7. }
  8. ]
  9. }

基准测试:吞吐量到底怎么样?

最后跑一波基准测试,看看效果。下载测试脚本:

  1. wget https://raw.githubusercontent.com/vllm-project/vllm/refs/heads/main/benchmarks/benchmark_utils.py
  2. wget https://raw.githubusercontent.com/vllm-project/vllm/refs/heads/main/benchmarks/benchmark_throughput.py

执行:

  1. python benchmark_throughput.py --model "/data/models/DeepSeek-R1-Distill-Qwen-1.5B" --backend vllm --input-len 128 --output-len 512 --num-prompts 50 --seed 1100 --dtype half

结果:Throughput: 2.45 requests/s, 1569.60 total tokens/s, 1255.68 output tokens/s。对于 1.5B 模型来说,这个吞吐量已经是相当不错的水平了。如果换成更大规模的模型,并行度和显存管理带来的优势会更明显。

(完)

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:vLLM生产环境部署DeepSeek 算力减半吞吐增十倍要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/finetuning/2025032429156.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-04 18:24
TinyStudio AI字幕生成器

TinyStudio借助M1 M2芯片硬件加速和OpenAIWhisper技术,在本地离线快速生成字幕,数据安全有保障。内置校正系统提升准确率,界面友好,支持一键生成与导入导出,为Vlogger、营销人员和社交媒体爱好者提升字幕制作效率。

AI热点2026-07-04 18:24
Podpod使用人工智能主持人将文章通讯一键转化为播客

Podpod可通过在文章链接前添加“podpod me ”或转发通讯至专属邮箱,将文字内容转化为由人工智能主持人朗读的播客节目并推送至播客应用,支持文章与通讯转播客、多音色AI主播及RSS频道生成。

AI热点2026-07-04 18:23
AI播客平台NotebookAI使用指南

AIdeaFlowPodcast是一款文本转播客平台,支持120多种声音和自然对话风格,可在几秒内生成多语言音频。内置智能助手优化脚本、互动主持人增强对话,输出纯播客、对话体等形态,无需专业设备即可快速制作。

AI热点2026-07-04 18:23
成功AI提供无限B2B线索与自动化电邮增长

Success ai整合700万+B2B线索库、无限电邮账户、自动预热与AI写作,实现大规模获客与高效触达,提升账户信誉及回复率,覆盖从线索获取到邮件触达全链条,助力企业增长。

延伸阅读