数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

AI工作流Xinference后台大模型平台搭建教程

AI热点日报时间：2026-06-29

热点解读

探索国内自研的高性能大模型平台，发现AI推理的新天地。之前我们聊过Ollama大模型后台，今天来介绍另一个重量级选手——Xinference。很多人可能觉得Xinference是个新面孔，其实它在圈子里已经存在很久了，只是最近随着国产大模型的升温才被更多人关注。简单来说，Xinference是一个

探索国内自研的高性能大模型平台，发现AI推理的新天地。

之前我们聊过Ollama大模型后台，今天来介绍另一个重量级选手——Xinference。很多人可能觉得Xinference是个新面孔，其实它在圈子里已经存在很久了，只是最近随着国产大模型的升温才被更多人关注。简单来说，Xinference是一个基于Xorbits Inference的分布式推理框架，由国内团队开发，支持大语言模型、语音识别、多模态模型等各类模型的推理部署。无论是研究者、开发者还是数据科学家，都能通过它一键调用前沿模型，快速验证想法。下面就直接进入正题，先看一组横向对比，感受一下它在江湖中的地位。

功能特点	Xinference	FastChat	OpenLLM	RayLLM
兼容 OpenAI 的 RESTful API	✅	✅	✅	✅
vLLM 集成	✅	✅	✅	✅
更多推理引擎（GGML、TensorRT）	✅	❌	✅	✅
更多平台支持（CPU、Metal）	✅	✅	❌	❌
分布式集群部署	✅	❌	❌	✅
图像模型（文生图）	✅	✅	❌	❌
文本嵌入模型	✅	❌	❌	❌
多模态模型	✅	❌	❌	❌
语音识别模型	✅	❌	❌	❌
更多 OpenAI 功能 (函数调用)	✅	❌	❌	❌

具体项目细节可以参考官方仓库：https://github.com/xorbitsai/inference。

既然Ollama已经很好用了，为什么还要折腾Xinference？两者到底有什么区别？下面分几个方面来讨论。

为什么

先说为什么要上Xinference平台，主要有三个原因。

原因一：模型种类更丰富。 Ollama虽然模型不少，但主要局限于文字生成（对话、补充）和视觉模型，文字处理方面也只包含生成类和Embedding模型。而Xinference除了覆盖这些，还额外支持Rerank模型（如Jina、BGE）、图像模型（如Stable Diffusion）、音频模型（如CosyVoice、ChatTTS）、视频模型（如混元大模型），以及自定义模型。而且内置的优质模型更多，比如ChatGLM-4V这类国产大模型也直接可用。

原因二：对RAG知识库更友好。 Dify对Ollama的定位是文字输出和Embedding，但文字处理中缺少Rerank这一环。在构建RAG知识库时，Embedding处理后的Rerank是提升检索质量的关键步骤，而Ollama本身不支持这个环节。除非自己手搓Dify的代码，否则很难绕开。而Xinference天生就支持Rerank模型，省了不少事。

原因三：多条路总没错。 毕竟Ollama是海外项目，万一哪天出现什么变故，手头有个国产备选方案会从容得多。

当然，任何工具都有两面。Xinference相对于Ollama，优势明显，但劣势也值得注意。

优点： 支持的模型种类多，可用性好；下载有国内源，速度很快；自带独立UI，基本操作无需命令行；能力范围比Ollama更广；国内公司开发，对国内用户更友好。

缺点： 上手难度较大，模型体量较大，模型优化不如Ollama；下载没有进度条，只能通过后台流量间接观察；开发门槛较高，对代码能力有要求；模型运行在后台时资源占用较大；必须依赖Docker，不像Ollama那样有独立后台；Docker本身占用资源较多；模型使用时需要手动选择框架，不清楚原理的话很容易卡住；部分技术框架（如Pytorch）需要手动安装。

怎么做

Xinference的安装

第一步：安装Docker。Docker的安装过程这里不再展开，可以参考官方文档或相关教程。

第二步：在空间较大的磁盘（如D盘）上创建一个文件夹，名称用英文且不含空格，例如 D:\Xinference。然后在该目录下再建一个 model 文件夹作为模型存储路径。

第三步：打开命令提示符或PowerShell，执行以下Docker命令拉取镜像并启动容器：

docker run -d --name xinference --gpus all -v D:/Xinference/model:/root/models -v D:/Xinference/.xinference:/root/xinference -v D:/Xinference/.cache/huggingface:/root/.cache/huggingface -e XINFERENCE_HOME=/root/models -p 9997:9997 registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:latest xinference-local -H 0.0.0.0

这条命令将从阿里云镜像仓库拉取最新版的Xinference，并将本地目录挂载到容器内对应的路径，最后指定端口为9997。执行后Docker会自动下载镜像并启动。

Xinference运行

镜像启动后，打开浏览器，访问 http://localhost:9997 或 http://127.0.0.1:9997 即可进入Xinference的UI界面。

如果打不开，请检查两点：是否有其他应用占用了9997端口；Docker中Xinference容器是否正常运行。

模型下载

进入界面后，建议先切换语言：在左下角找到切换按钮，点击选择“中文”，界面会更友好。

点击“启动模型”，选择需要的模型类型，然后搜索具体模型。以音频模型CosyVoice-300M-SFT为例：

点击CosyVoice-300M-SFT的卡片，弹出模型配置窗口。重点是下载中心：国内用户建议选择“modelscope”，下载速度很快。设置好后点击小火箭按钮开始下载：

下载速度一般在5~15MB/s左右，如果带宽足够还能更高：

对于消费级显卡和个人电脑，模型大小通常在4~15GB之间，比如CosyVoice-300M-SFT大小是5.35GB：

下载完成后，在“运行模型”页面即可看到已启动的模型：

其他平台调用Xinference端口时，通常使用9997端口即可。

结论

Xinference是一个非常强大且全面的模型后台平台。虽然在性能优化上略逊于Ollama（比如自动释放硬件资源等方面），但它的模型支持范围更广，能力更全面，与FastGPT、Dify等平台的对接也非常流畅。更重要的是，它完全适配国内用户：模型下载不局限于HuggingFace，同时支持ModelScope等国内源，下载的是原始全量模型，而非Ollama那种加密打包。这样做的好处是方便开发者直接操作和调试；坏处是对硬件资源的要求更高，模型文件也更大。

总结来看：如果你不想做深度开发，只是需要用平台化的方式运行一些模型，那么Ollama和Xinference都是非常好的选择。对于一般开发者，它们能显著加速开发流程，当然也有一定限制。而对于高度定制化的开发场景，平台本身并非必需品，但在端口配置和接口统一方面仍能节省不少时间。

无论你最终选择哪个，多一个备选项总归不是坏事。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：AI工作流Xinference后台大模型平台搭建教程要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2025020561295.html

ai 人工智能

上一篇：Ollama本地大模型安装教程

下一篇：Ollama+Open WebUI部署本地大模型知识库与自定义Ollama模型

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周基于人工智能的室内设计与虚拟布置平台 02 / 本周人工智能驱动客户体验管理与评论分析平台OctoparseVOC 03 / 本周Odoo CRM营销助手扩展全面功能详解与使用技巧大全 04 / 本周扎克伯格称联想基于Meta Llama大模型构建个人AI智能体AI Now 05 / 本周Booking.com房东AI智能即时回复工具

01 / 本月基于人工智能的室内设计与虚拟布置平台 02 / 本月人工智能驱动客户体验管理与评论分析平台OctoparseVOC 03 / 本月Odoo CRM营销助手扩展全面功能详解与使用技巧大全 04 / 本月扎克伯格称联想基于Meta Llama大模型构建个人AI智能体AI Now 05 / 本月Booking.com房东AI智能即时回复工具

热点快看

06-29 20:24基于人工智能的室内设计与虚拟布置平台 06-29 20:24人工智能驱动客户体验管理与评论分析平台OctoparseVOC 06-29 20:24Odoo CRM营销助手扩展全面功能详解与使用技巧大全 06-29 20:23扎克伯格称联想基于Meta Llama大模型构建个人AI智能体AI Now 06-29 20:22Booking.com房东AI智能即时回复工具

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别