面包屑图标 当前位置: 首页
AI资讯
热点详情

阿里云容器服务AI助手2.0新一代智能运维能力

AI热点日报
AI热点日报时间:2026-06-28
热点解读

前言 随着智能计算(智算)时代的到来,人工智能与大模型技术正深刻改变技术演进的路径——AI工具已广泛渗透至各行各业,持续驱动创新。智能运维(AIOps)正是阿里云容器服务团队在基础能力建设中追求的核心目标。大语言模型(LLM)历经阶跃式发展后,目前已初步达到“可采纳”“可信赖”的水平。那么,下一代智

前言

随着智能计算(智算)时代的到来,人工智能与大模型技术正深刻改变技术演进的路径——AI工具已广泛渗透至各行各业,持续驱动创新。智能运维(AIOps)正是阿里云容器服务团队在基础能力建设中追求的核心目标。大语言模型(LLM)历经阶跃式发展后,目前已初步达到“可采纳”“可信赖”的水平。那么,下一代智能运维AIOps的形态将是怎样的?答案在于:将AI能力与成熟的专家诊断体系深度融合,并结合可观测运维体系所提供的高质量数据,构建出数据驱动的新型运维范式。

为帮助Kubernetes(K8s)用户借助AI快速上手,并实现自动化、智能化的运维难题解决,在2023年云栖大会上,阿里云容器服务团队正式发布了ACK AI助手。过去近一年中,该助手持续稳定运行,累计服务了上万名用户。2024年11月,团队进一步整合现有运维可观测体系,将场景覆盖到K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在为用户使用和运维K8s提供更全面的保障。

AI 之于 K8s 的意义所在

在正式介绍ACK AI助手之前,我们首先梳理K8s用户的核心痛点以及他们真正需要的平台能力,这也是我们持续迭代AI助手的根本原因。

K8s 已然是业界主流

CNCF 2023年的调研显示,IT生产系统中采用Kubernetes架构的比例已达89%,而2022年这一数字为76%。短短一年间,K8s凭借其强大能力几乎成为业界实施标准。然而,正因如此,其高运维复杂度与陡峭的学习门槛成为绕不开的挑战。2022年CNCF调研报告指出:“使用容器服务的最大障碍在于复杂概念和运维体系带来的巨大学习成本。”到了2023年,复杂性和可观测性问题更加突出,安全性和高学习门槛依然不容忽视。

较原有观测能力,AI 助手“革命性”地缩减平均问题解决时间(MTTR)

在引入AI之前,针对K8s复杂运维的痛点,阿里云容器服务已积累了丰富经验。现有的可观测体系提供了全方位支持:容器场景上下层全覆盖的数据、专业团队沉淀的预制监控大盘、默认报警规则等,保障了集群稳定性和超大流量系统的性能,也能有效应对日常异常问题诊断。然而,尽管可观测能力强大到能为任何异常提供数据支撑,但异常排查链路冗长、专业知识学习门槛高这两个问题始终未能妥善解决。下图展示了一次典型的K8s应用异常恢复过程:

可以看到,即便有全面的数据支持,用户仍需配置合适的报警规则、找到对应的监控大盘、看懂关键指标和K8s异常事件,才能完成“发现异常”这一步。接着还要根据监控信息定位根因,结合自身经验寻找SOP解决方案,最终才能解决问题。无论是日常运维还是处理线上异常,几乎每个环节都离不开有经验的K8s观测和运维人员。而且,当前的运维观测体系分散在业务各处,进一步增加了集中定位问题的时间成本。这导致完整问题解决的MTTR往往很长,增大了业务影响甚至资损风险。

那么AI助手是如何改进的呢?下面展示一个异常应用的“智能诊断”路径:

只需点击发起异常诊断,AI助手就能直接给出异常根因结论。它会自动查询相关实体的异常观测数据——应用状态、指标、事件等,结合专家诊断经验与LLM判断力,快速输出问题结论和分析过程,最后给出SOP解决方案。MTTR被压缩为一步:1分钟内发现问题,5分钟内定位并给出方案,10分钟内解决问题并闭环。这才是真正的效率提升。

阿里云容器服务AI助手:新一代容器智能运维能力

ACK AI助手是容器服务团队在2023年推出的智能运维产品,旨在精准高效地帮助用户解决K8s使用和运维中的难题。经过持续迭代,最新的ACK AI助手2.0在两大关键指标上取得了突破:问题诊出率(是否给出正确结论)和问题采纳率(用户是否采纳AI的回答)。目前诊断成功率超过80%,根因定位率达到70%以上;应答文档采纳率超过50%,内容采纳率超过40%。下面详细介绍其能力。

AI 助手 1.0

2023年上线的1.0版本主要提供了智能快速诊断智能问答两大能力。回顾一下:

智能快速诊断

在这一场景下,AI助手通过ACK可观测体系自动获取集群上的异常监控状态,结合K8s拓扑结构快速下钻分析根因,并融入团队多年沉淀的K8s异常诊断和故障恢复经验,配合已有的专业故障诊断系统(专家系统),迅速给出准确的诊断结论。下图展示了一个Pod拉取镜像失败导致Deployment异常的案例——AI助手可通过Deployment/Pod列表的“状态”栏的“智能诊断”按钮快速唤起,诊断异常并给出修复建议:

在主要Kubernetes实体列表页的异常状态下,都能找到AI助手入口,随时唤起诊断。

智能问答

为降低学习成本,尤其是帮助新手快速掌握容器领域知识,AI助手支持通过右下角icon随时唤起智能问答。用户可咨询任何与K8s和ACK产品相关的问题。团队参考阿里云卓越架构,针对稳定性、安全性、成本优化、高可用、高性能五个维度,结合可观测数据和多年运维经验,通过Multi-Agent RAG增强LLM训练,使AI助手更精准地解决领域问题:

AI 助手 2.0

经过一年迭代,ACK AI助手实现了全面升级。2024年云栖大会上推出的2.0版本与现有观测、诊断、安全能力深度结合,覆盖更广的范围,为K8s用户保驾护航:

AI助手2.0的核心能力覆盖以下方面:集群构建(集群规划、辅助生成)、集群运维(智能诊断、智能体检)、集群优化(集群与应用优化、成本优化)、集群安全(集群安全分析、应用安全分析),从Day 0 规划与设计Day 1 部署与初始配置,再到Day 2 持续维护与优化,覆盖整个生命周期。以下按Day 0到Day 2的顺序展示增强版AI助手如何在运维全生命周期中提供支持。

Day 0 - 规划与设计

使用控制台创建集群时,AI助手会在进入创建确认页时自动唤起,基于ACK专家的经验快速分析即将创建的集群配置,从稳定性、安全性、性能和网络等多个维度提供优化建议:

此外,创建集群页还提供了划词咨询功能,用户可选中字段唤起AI助手进行解释,扫除知识盲点:

非控制台用户同样能受益——AI助手可以辅助生成包括Terraform在内的基础设施即代码(IaC),简化集群资源配置的编排:

有了AI助手的专家级支持,集群部署效率显著提升,用户不必再纠结繁琐的配置细节,可以更专注于业务本身。

Day 1 - 部署与初始化配置

创建集群后,应用部署通常需要编写YAML。对不熟悉K8s的用户来说,写一份生产可用的YAML并不容易。为此,AI助手提供了两大核心能力:YAML生成YAML优化,均可在控制台YAML创建页通过对应按钮唤起:

YAML生成支持从零创建YAML文件,或在现有的Deployment、StatefulSet等基础上快速生成所需的Service、VPA等配置,帮助用户高效创建符合生产标准的资源定义;YAML优化则针对用户已有的YAML文件提供优化建议,包括资源限制、健康检查、自动扩缩容等最佳实践,确保配置的合理性和可靠性:

这两大能力让用户迅速掌握K8s应用部署的技巧,真正做到“站在巨人的肩膀上”迈出生产环境的第一步。

Day 2 - 持续维护与优化

随着业务规模增长,更多难题浮出水面:偶发的集群异常和故障缺乏长效风险控制机制、处理速度有待提高;集群安全风险状态备受关注;成本管理日益重要。为了满足稳定性、安全性和成本三个关键领域的需求,AI助手推出了针对性功能。

稳定性

① 集群智能体检

为提升稳定性,AI助手提供了智能体检功能。用户可通过控制台上的“AI智能体检”按钮唤起,体检程序从稳定性、安全性和成本等方面自动分析并生成全面的集群风险分析报告,包括组件版本是否需要升级、配额是否充足、资源使用是否存在风险等信息。为此,ACK进行了大量数据采集与分析,整合可观测数据、FinOps与安全套件、集群巡检等,结合20多个领域检查项,运用增强型大模型深入分析。仅需点击按钮,即可生成报告。举个例子:通过一键体检,AI助手诊断出集群存在CoreDNS单点故障风险——多个副本部署在同一个节点上。CoreDNS作为DNS解析的关键组件,一旦节点宕机,整个集群DNS服务将受影响。AI助手成功发现了这一隐患,让用户在问题发生前就能提前处理。

② 智能诊断

AI助手1.0已支持Deployment、Pod、Event、Node等实体的智能诊断,2.0版本进一步扩展了诊断场景:

  • API调用诊断:控制台调用云产品API出错时弹窗提示,AI助手提供错误诊断,告知原因和优化建议。
  • 集群日志分析:对异常日志提供一键分析能力。
  • 管控任务诊断:针对失败的任务提供智能诊断。
  • 集群报警诊断:结合用户查看告警历史的使用习惯,在告警页面提供诊断入口。
  • 组件诊断:对安装、升级、变配失败的组件提供诊断能力。

所有诊断入口都在控制台上以显眼按钮透出,用户可一键唤起AI助手,大大缩短定位、排查、解决问题的耗时。

安全性

在安全领域,AI助手2.0提供了智能安全分析能力,基于容器服务安全能力,结合专家知识和容器领域大模型,快速透出集群安全风险。主要包含:容器镜像安全扫描、安全策略辅助配置、集群节点CVE检查、工作负载配置风险扫描、集群运行时风险监控。下图展示了CVE漏洞解读与安全策略生成相关功能:


通过大模型驱动的安全分析,AI助手能生成详尽的安全报告,并提供一键跳转的解决方案,帮助客户快速发现风险并实施修复。

成本

节约成本是用户选择上云和用K8s的主要目的之一。随着业务扩张,帮助用户控制成本是我们责任。为此,AI助手提供了应用和集群的双重成本智能优化能力:

  • 资源配置优化:通过集成资源画像,推荐更合适的resource request和limit配置,实现更合理的资源分配。
  • 闲置资源检测:检查ECS、SLB、EIP等资源占用情况,分析后提供闲置资源清单,减少不必要开支。

借助AI助手,客户能快速识别并解决成本浪费,提升运营效率。

展望

ACK AI助手是阿里云容器服务团队的一次重要尝试。虽然当前还未达到最满意的终态,但在持续努力下,2.0版本已能提供相当自然流畅的人机对话。即便是初次接触K8s的用户甚至非技术人员,也能轻松获取有用信息或特定任务的指导。这不仅降低了使用门槛,也极大提升了用户体验。

目前,团队正在加强监控数据处理能力,借助先进的机器学习算法和深度神经网络模型,实现AI助手对海量日志和指标数据的实时分析,自动识别潜在问题并预测风险点——不仅能快速定位异常模式,还能深入挖掘背后原因,提供全面精准的数据洞察。同时,背后的知识库也在持续沉淀和优化,让AI助手面对新型挑战时能做出更准确合理的判断。将“从发现问题到解决问题”这一流程无缝衔接,是我们持续研究的重点:检测到异常后,立即启动根因分析,根据预设规则或历史案例推荐最优策略。对于常见故障,AI助手可完全自动化执行修复;对于复杂或需人工决策的场景,则提供详尽的操作指南和工具支持,协助用户高效完成运维。这种端到端的服务模式,将大大缩短故障恢复时间,降低人工成本。

ACK AI助手作为国内首批推出的云原生容器场景原生AI产品,2023年云栖大会首发,2.0版本已于2024年11月上线并全面开放。欢迎大家前来体验,感受AI助手带来的便利,也期待后续产品能力的持续演进与发展。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:阿里云容器服务AI助手2.0新一代智能运维能力要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/zhinengyingjian/2024122932179.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-04 17:04
大模型为何使用Token而非UTF8编码的深层解析

先从一个基础问题说起:大模型处理文本,底层的语言单位到底是什么?答案是Token,而不是我们熟悉的UTF8字符。很多人会疑惑:UTF8已经统治了文本编码界这么多年,为什么大模型非要搞一套自己的编码方式?这篇文章就来聊聊Token到底是个什么东西,它凭什么能取代UTF8,以及它背后又有哪些不得不正视的

AI热点2026-07-04 17:03
模型特征蒸馏的深层知识转移挑战与局限

深入探索基于特征的模型蒸馏技术,揭示如何通过深层次知识转移提升模型效率。核心内容:1 神经网络分层信息处理机制解析2 基于特征的模型蒸馏方法详解3 多对一映射挑战及应对策略引言在前面的文章中,我们探讨了基于知识的模型蒸馏技术,即教师模型通过输出软标签来指导学生模型。随着DeepSeek等大模型

AI热点2026-07-04 17:03
GPT-4o生图实测:20余场景示例与缺陷整理

GPT-4o的图像生成能力确实让人眼前一亮——复杂场景、细节处理,都有了质的飞跃。从凌晨ChatGPT放出更新后,实测下来的感受是:光影、文字、细节,全都栩栩如生。 而且,通过对话就能进一步修改。遮挡关系、倒影之类的处理,相当到位。 生成图片的质量,已经可以直接用于科普插画。比如绘制分光三棱镜,效果

AI热点2026-07-04 17:03
联想HoloBoard沉浸式未来黑板,助推教育智能化转型

在近期落幕的全球教育科技大赛中,联想研究院自主研发的沉浸式未来黑板HoloBoard,从超过一千个参赛项目中脱颖而出,成功入围国际知名“重构教育奖”(Reimagine Education Awards)的虚拟现实 增强现实类别决选。该奖项素有教育领域“奥斯卡”之称,最终获奖结果将于12月初公布。

延伸阅读