体验TencentOS Server AI全栈DeepSeek工具箱 性能提速80%
TencentOSServerAI提供从操作系统到AI框架的全栈AI环境,简化私有化DeepSeek部署流程。其集成自研TACO-LLM推理框架和优化内核,实测在代码生成、对话问答等场景下,相比主流开源方案推理性能平均提升近80%,显著改善token吞吐速率和生成时延。
先说一个核心判断:企业做私有化DeepSeek部署,其实一开始就会碰到两个头疼的问题——部署太复杂,推理性能又不达标。腾讯云这次拿出来的TencentOS Server AI,思路倒挺直接:从操作系统到AI框架再到模型,给你一套全栈式的AI环境,一边把部署流程简化了,另一边靠高性能的推理框架,把大模型的推理效率提上去。实测下来,比起其他开源方案,性能提升能超过80%。这事儿值得仔细看看。

环境配置信息
这次部署用到的配置和版本如下:
| 硬件配置 | 软件版本 |
|
CPU:AMD 384核 内存:2304GB 硬盘:2048GB GPU:8张NVIDIA卡 |
操作系统:TencentOS Server AI版 内核版本:5.4.119-19.0009.56 |
TencentOS Server AI 操作系统部署
在私有化环境里部署TencentOS Server AI版Linux操作系统,系统装好之后,默认就把AI基础环境也一并搞定了,开箱即用。这里说的AI基础环境,主要包括这么几块:
针对AI场景的内核优化: TencentOS Server AI版对内存透明大页、IO子系统、CPU调度、文件句柄数扩展都做了专门的优化,让操作系统在跑大模型的时候,运算更利索。
GPU驱动: 安装过程中,系统会自动检测GPU的类型,然后自动把驱动装上。目前提供的Nvidia驱动版本是535.216.01。
容器环境: 系统自带了大模型运行依赖的Docker环境,版本是26.1.3,同时也会部署nvidia-container-toolkit(版本1.13.5)。系统装完后,Docker服务默认就是启动的。
tencentos-ai工具: 这是个命令行工具,能自动完成基于Docker的大模型框架部署、配置、启动和模型加载这些事儿。
推理框架和基础模型的准备: 系统安装完成后,会自动创建/opt/tencentos-ai目录,同时把光盘里的taco-llm推理框架拷贝到/opt/tencentos-ai/engine中,把DeepSeek-R1:7b模型拷贝到/opt/tencentos-ai/models里。这就省去了不少手动折腾的步骤。
在TencentOS Server AI上部署DeepSeek
3.1 概述
要搭一个DeepSeek的私有化服务,得完成推理框架的部署和模型的加载。TencentOS Server AI的ISO光盘里,默认提供了腾讯自研的大模型推理框架TACO-LLM以及DeepSeek的7b模型。所有部署、配置、管理的工作,都可以通过tencentos-ai这个CLI管理工具来统一搞定。
3.2 大模型推理框架TACO-LLM
TACO-LLM(TencentCloud Accelerated Computing Optimization LLM)是腾讯云自研的面向大模型的推理框架,默认集成在TencentOS Server AI里。跟其他开源框架比起来,TACO-LLM在稳定性、安全性和性能上都有优势。它用上了自研的Lookahead加速技术,再加上针对DeepSeek模型输出特征的优化,能明显提升tokens的吞吐能力。
3.3 部署DeepSeek-R1:70b
1) 获得DeepSeek-R1:70b模型
TencentOS Server AI除了光盘里自带的DeepSeek-R1:7b模型外,还通过极光系统提供其他大小的DeepSeek模型。你可以联系腾讯获取下载,也可以直接从modelscope这些模型官网上下载。下载完后,把模型拷贝到/opt/tencentos-ai/models里统一管理就好。
2) 配置tencentos-ai
修改tencentos-ai的配置文件/etc/tencentos-ai/tencentos-ai.conf,改一下下面这段:
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
ENGINE=/opt/tencentos-ai/engine/taco-llm-v0.64.tgz
MODEL=/opt/tencentos-ai/models/DeepSeek-R1-Distill-Llama-70B
3) 初始化DeepSeek运行环境
用tencentos-ai的init指令来自动完成配置。它会读取tencentos-ai.conf里的信息,自动完成推理框架容器镜像的加载和配置:
tencentos-ai init
4) 运行DeepSeek
tencentos-ai支持用start和stop命令来启动、停止taco-llm。启动时,它会自动读取配置文件里的MODEL字段,把模型加载起来:
tencentos-ai start
3.4 DeepSeek服务测试
服务启动后,可以用tencentos-ai的test命令来做简单测试:
tencentos-ai test --prompt="你是谁"
如果看到正常回应,就说明服务跑起来了。
性能评测
4.1 性能评测方法
这次测试用了行业里主流的基准测试框架,通过标准化的流程和评估指标,比较不同私有化部署方案之间的性能差异。重点关注的三大指标是:输出token速率(tokens/s)、平均首token时延(ms)和平均生成token时延(ms)。输出token速率和平均生成token时延直接影响用户的使用体验——说白了就是“快不快”,同时也是衡量GPU资源效能的关键指标。
评测涵盖了代码生成、对话问答、预训练、医疗四个目前AI的主流应用场景,用的都是业内公开的数据集,对比的是目前挺流行的开源部署方案——vLLM。
4.2 与vLLM对比结果分析
● 代码生成类场景: 用github_sample数据集测试。结果是这样的:

从上图可以看到,跟vLLM比起来,TencentOS Server AI在代码生成类场景中,token吞吐速率提升了53.6%,平均生成token时延降低了38.9%。
● 对话问答场景: 用ShareGPT_V3数据集测试:

结果很明显,TencentOS Server AI版在对话问答场景中,token吞吐速率平均提升了53.4%,平均生成token时延降低了39.5%。
● 预训练场景: 用c4_sample数据集测试:

这里的数据更突出,TencentOS Server AI版在预训练场景中,token吞吐速率提升了117.2%,平均生成token时延降低了55.9%。
● 医疗场景: 用medical数据集测试:

同样,TencentOS Server AI版在医疗场景下,token吞吐速率提升了94.1%,平均生成token时延降低了51.0%。
综合来看,TencentOS Server AI能快速完成DeepSeek-R1:70B(百亿模型)的部署,在代码生成、对话问答、预训练和医疗四类场景下,token输出分别提升了53.6%、53.4%、117.2%和94.1%,平均token输出提升达到了79.58%。 这个提升幅度,在私有化部署方案里确实相当能打了。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:体验TencentOS Server AI全栈DeepSeek工具箱 性能提速80%要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。
Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。
一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。
专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。
- 日榜
- 周榜
- 月榜
热点快看
