阿里云PAI平台对接指南从入门到生产级集成

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

阿里云PAI平台对接指南从入门到生产级集成

热心网友时间：2026-07-01

转载

1. 认识阿里云PAI平台：架构与核心组件

阿里云人工智能平台PAI（Platform for AI），说白了，就是一个一站式AI开发大本营。从最开始的数据准备，到中间的模型训练，再到最后的服务部署，整个链条它都包圆了。

PAI的架构，可以拆成四层来看：最底下是基础资源层，包括CPU、GPU、高速RDMA网络和容器服务ACK这些硬件和基础设施；往上是平台工具层，提供了DSW交互式编程、DLC深度学习训练、EAS模型在线服务这几个核心产品；再往上，模型服务层支持大模型一键部署和推理加速；最顶层则是面向各行各业的解决方案。理解了这个分层，后面在具体对接时，就能快速定位该用哪个子产品。

阿里云人工智能平台PAI对接完全指南：从入门到生产级集成

几个核心组件值得单独拎出来说说：

DSW（Data Science Workshop）：交互式模型开发与调试的环境，基于Jupyter Notebook，上手很直接。
DLC（Deep Learning Containers）：专为分布式深度学习训练设计，哪怕是千亿参数的模型，也能高效迭代。
EAS（Elastic Algorithm Service）：模型上线后的在线推理服务，能把训练好的模型变成一个高可用的RESTful API接口。
PAI-QuickStart：零代码一键部署模型的能力，覆盖了LLM、AIGC、CV、NLP等领域的预训练模型，省心省力。

另外，工作空间是PAI里一个顶层的概念，用来统一管理计算资源和人员权限。明白了这些，后面就好办了。

2. 对接前的准备工作：账号、权限与工作空间

2.1 开通PAI服务

第一次用PAI，得先开通。登录PAI控制台，在左上角选好地域，点一下开通就行。开通后系统会自动创建一个默认工作空间。当然，你也可以根据项目需要，创建多个工作空间来隔离不同的资源，这在多人协作或环境隔离的场景下非常实用。

2.2 获取AccessKey

要调用PAI的OpenAPI或者用SDK开发，身份认证这块绕不开AccessKey。它由AccessKey ID和AccessKey Secret组成。这里有个安全建议：最好去RAM控制台给开发人员创建独立的RAM用户，再生成对应的AccessKey，千万别图省事直接用主账号。主账号的AccessKey拥有所有资源的完全管理权限，一旦泄露，后果很严重。

2.3 创建与管理工作空间

工作空间是PAI进行资源管理和权限隔离的核心。创建时，需要配置名称和所属的资源组。创建成功后，可以在详情页里配置成员、角色、默认的存储OSS Bucket以及关联的计算资源。有一点要注意：PAI工作空间和DataWorks工作空间是互通的，在PAI创建的空间，也会出现在DataWorks的工作空间列表中。

2.4 RAM权限配置

使用PAI会涉及两方面的授权：一是RAM用户授权，用来开通和使用云产品；二是服务授权，让PAI能访问其他阿里云服务。PAI通过工作空间来管理权限，你可以把RAM用户加为工作空间成员，并授予不同的角色，比如资源管理员、工作空间管理员、算法开发、算法运维等。不同角色的权限范围差别很大，算法开发可以训练和部署模型，而访客角色就只有只读权限。

对于EAS服务，PAI提供了两个产品系统策略：AliyunPAIEASFullAccess（管理权限）和AliyunPAIEASReadOnlyAccess（只读权限）。如果用iTAG做数据标注，还得进一步设置人员分配权限。另外，PAI跟OSS、MaxCompute、NAS、VPC这些产品都有依赖，也需要为RAM用户授予相应的访问权限。

3. PAI Python SDK：安装、配置与凭据管理

3.1 安装SDK

PAI Python SDK是对接开发最主力的工具，提供了HighLevel API，能完成从训练到部署再到推理服务调用的全流程。安装前确保Python版本在3.7及以上。执行命令：

=0.4.0"","id":"bRFhQ"}">

如果安装过程中遇到ModuleNotFoundError，可以先执行pip install --upgrade pip升级pip再试。

3.2 配置SDK

装好之后，需要初始化配置，包括AccessKey、默认工作空间和OSS Bucket。PAI SDK提供了一个很方便的命令行配置工具：

按照引导一步步输入AccessKey ID、AccessKey Secret、默认地域、工作空间ID和OSS Bucket名称就行了。这些配置信息会保存在本地文件里，后续SDK会自动读取。

3.3 凭据链与安全最佳实践

PAI Python SDK默认使用凭据链来获取访问凭证，它会依次从环境变量、本地配置文件、ECS RAM角色等地方获取。在生产环境里，推荐用ECS实例RAM角色或者配置环境变量来管理AccessKey，千万别把AccessKey硬编码在代码里。同时，通过RAM策略实施最小权限原则，只给RAM用户完成特定任务所需的最小权限。

4. 使用PAI Python SDK提交训练作业

4.1 准备训练数据

PAI的训练作业是从OSS读取输入数据的，所以得先把数据集上传到OSS Bucket里。下面用一个MNIST手写数字数据集来训练图像分类模型。先下载数据集到本地：

然后用PAI SDK提供的上传工具把数据传到OSS：

4.2 编写训练脚本

训练脚本需要适配PAI的执行环境。PAI在训练作业运行时，会自动挂载输入数据和输出目录。你可以基于PyTorch官方示例库里的MNIST训练脚本进行修改。关键点在于：脚本要从指定路径读取数据，并把训练好的模型输出到指定目录。

4.3 使用Estimator API提交训练作业

PAI Python SDK提供了Estimator API来提交训练作业。通过Estimator，可以指定训练镜像、资源规格、输入数据路径和输出模型路径等参数。提交后，PAI会自动调度计算资源执行训练，完成后把模型保存到指定位置。

5. 模型部署：将训练好的模型发布为EAS在线服务

5.1 部署方式概述

PAI提供了两种主要的模型部署方式：一是用预置的Processor，二是用自定义镜像。Processor是PAI对推理服务程序包的抽象，能基于用户提供的模型直接构建推理服务。PAI预置了支持TensorFlow Sa vedModel、PyTorch TorchScript、XGBoost、LightGBM和PMML等常见模型格式的Processor，开箱即用。

5.2 使用Processor部署模型

下面用预置的PyTorch Processor为例展示：

5.3 使用自定义镜像部署

对于更复杂的推理场景，自定义镜像部署更灵活。PAI提供了多种常用架构的推理镜像，包括TensorFlow、PyTorch和XGBoost等。你也可以基于PAI的基础镜像构建自己的推理镜像：

5.4 大语言模型的一键部署

PAI-QuickStart支持大语言模型的零代码一键部署。在PAI控制台的EAS推理服务页面，单击部署服务，在场景化模型部署区域选择LLM大语言模型部署。你可以选择公共模型（比如Qwen3-0.6B）一键部署，推理引擎推荐用SGLang或vLLM，这两个都高度兼容OpenAI API标准。部署完成后，服务状态变为运行中就算成功了。

6. 调用EAS推理服务：多种协议与多语言SDK

6.1 获取服务调用信息

服务部署成功后，需要获取调用地址和Token。在PAI控制台的推理服务页面，单击服务名进入概览页面，在基本信息区域单击查看调用信息。弹出的对话框里，共享网关页签下会显示公网调用地址、VPC调用地址和Token三个字段。也可以切换到VPC高速直连页签查看对应的直连地址。

6.2 HTTP/HTTPS调用

拿到服务地址和Token后，通过HTTP/HTTPS协议就能直接调用推理服务了。对于用vLLM或SGLang引擎部署的大模型服务，接口兼容OpenAI API格式，用标准的HTTP请求就能调用。调用时需要在请求头里带上Token进行身份认证。

6.3 gRPC协议调用

EAS服务也支持gRPC协议，适用于需要高性能、低延迟的场景。通过网关调用gRPC服务时，端口固定为80。从控制台获取服务地址后，提取域名部分并追加端口号:80就行。

6.4 Go语言SDK调用

PAI提供了Go语言SDK来连接EAS服务：

6.5 Ja va语言SDK调用

Ja va SDK也有。在Ma ven项目的pom.xml里加上eas-sdk依赖就行。用法跟Go SDK类似，通过PredictClient对象设置服务地址、Token和请求路径后发起调用。

6.6 VPC网络直连调用

对于大流量、高并发的生产场景，推荐用VPC网络直连。这种方式只支持部署在EAS公共云控制台中购买专用资源组的服务，而且需要在控制台上为该资源组与用户指定的vSwitch打通网络。调用时，只需在Go SDK里加一行client.SetEndpointType(eas.EndpointTypeDirect)就能启用直连模式。直连方式能显著降低网络延迟，提升吞吐量。

7. PAI与阿里云生态产品的集成对接

7.1 PAI与OSS的集成

OSS是PAI最主要的存储依赖，几乎所有PAI子产品都离不开它。训练数据存在OSS里供DLC读取，训练好的模型也保存在OSS里供EAS部署，DSW笔记本中的数据通常也挂载OSS存储。所以，在配置PAI SDK时就需要指定默认的OSS Bucket。

7.2 PAI与MaxCompute的集成

PAI Designer可视化建模平台依赖MaxCompute作为数据计算引擎。通过Designer可以拖拽式构建机器学习工作流，底层由MaxCompute执行数据处理和模型训练任务。AutoML自动机器学习功能也依赖MaxCompute进行大规模并行超参数搜索。

7.3 PAI与EMR Serverless Spark的集成

EMR Serverless Spark提供了统一的外部模型服务注册能力，支持对接PAI-EAS部署的模型服务。通过SQL中的ai_query()函数就能调用PAI-EAS上的模型做批量推理。集成流程分三步：在PAI-EAS中部署并发布服务、获取服务的VPC地址和Token、在EMR Serverless Spark中注册外部模型服务。注册时需要填写模型服务名称和Endpoint地址（VPC调用地址末尾添加/v1）。注册完成后，就可以在Spark SQL里直接调用PAI-EAS上的模型进行批量情感分析、内容生成、智能标签提取等任务了。

7.4 PAI与LangStudio的集成

LangStudio是PAI的大模型应用开发平台，支持创建连接来对接已部署的EAS模型服务。在LangStudio中新建连接时，选择PAI-EAS模型服务类型，base_url和api_key会自动填充，分别对应已部署服务的VPC访问地址和Token。这样一来，开发者就能在LangStudio里轻松搭建基于大模型的Agent应用。

8. 高级配置与生产级实践

8.1 OpenAPI签名机制

PAI的OpenAPI使用ROA签名机制。对于需要直接调用OpenAPI的场景，开发者需要按照阿里云统一的签名规范对请求进行签名。不过阿里云已经为开发者封装了主流编程语言的SDK，通过SDK调用API完全不用操心签名这类底层细节。只有业务场景有特殊需求需要自签名对接时，才需要自行实现签名逻辑。

8.2 网络与安全配置

生产环境里，建议把EAS服务部署在VPC内网中，通过VPC网络直连方式进行调用，避免公网暴露。对于需要公网访问的场景，可以配置API网关来做安全的流量管理。PAI还支持通过KMS进行模型加密存储，满足金融、医疗等行业的数据安全要求。审计日志功能可以追踪每个推理请求的处理路径，出了问题好查。

8.3 监控与告警

EAS服务集成了SLS日志服务和云监控服务。你可以通过云监控配置EAS服务的告警规则，比如服务响应时间、请求成功率、GPU利用率等指标的告警。SLS日志服务可以收集EAS的访问日志和推理日志，方便问题排查和数据分析。

8.4 成本优化建议

用PAI训练和部署模型时，可以从这几个方面优化成本：训练作业用Spot实例（抢占式实例）能大幅降低计算成本；部署服务时根据实际流量选择合适的实例规格，别浪费；利用PAI的模型压缩工具把推理延迟压缩到100ms以内，在保证性能的同时降低资源消耗；对于非实时推理场景，可以用异步推理模式，按需弹性扩缩容。

9. 常见问题解答

问题1：PAI Python SDK安装后配置时提示无法找到工作空间怎么办？

答：先确认是否已经在PAI控制台创建了工作空间。配置时输入的工作空间ID需要与PAI控制台中的ID完全一致。如果用的是默认工作空间，PAI开通时会自动创建。也可以在PAI控制台的工作空间列表页面查看所有工作空间的ID。

问题2：EAS服务部署成功后调用返回401未授权错误是什么原因？

答：401错误通常意味着Token无效或已过期。检查调用时是否在请求头里正确携带了Token。Token可以从PAI控制台EAS服务的调用信息中获取。如果Token正确但仍然返回401，确认一下Token是否已过期，可以重新生成Token再试。

问题3：PAI训练作业提交后一直处于等待状态怎么办？

答：训练作业等待通常是因为计算资源不足。检查当前工作空间中是否有足够的计算配额。可以在PAI控制台的资源配额页面查看和申请更多资源。另外，如果用了Spot实例，在资源紧张时可能需要更长时间才能调度到资源。

问题4：如何实现PAI-EAS服务的版本更新而不中断服务？

答：EAS支持蓝绿部署和金丝雀发布两种灰度发布策略。可以在PAI控制台创建新版本的服务，然后通过流量权重配置逐步把流量切换到新版本。也可以在部署新服务时使用相同的服务名称，EAS会自动进行滚动更新，确保服务不中断。

问题5：RAM用户被授予AliyunPAIFullAccess后仍然无法访问某些PAI功能怎么办？

答：AliyunPAIFullAccess是PAI的产品系统策略，但某些PAI子产品（如EAS、DSW）可能还需要额外授权。此外，PAI依赖的云产品（如OSS、MaxCompute）也需要单独授权。建议检查RAM用户是否被添加为工作空间的成员并分配了正确的角色。工作空间成员的角色权限会覆盖部分产品系统策略的权限范围。