三大互联网企业谈AI运维：可观测技术如何迈向半自治？

首页

热心网友

转载

2025-10-23

来源:https://www.itbear.com.cn/html/2025-10/995472.html

随着上海QCon全球软件开发大会的临近，InfoQ《极客有约》携手AICon特别策划了一场关于AI与可观测技术融合的线上对话。这场直播将由阿里云可观测技术架构负责人张城主持，与阿里云算法专家李也、字节跳动Dev-Infra可观测平台算法负责人董善东、小红书可观测团队负责人王亚普共同探讨人工智能时代为可观测技术开辟的新路径。

传统可观测技术主要关注系统状态的“可视化”，而新一代运维模式正在向“发现-分析-解决-复盘”的全闭环演进。在这个过程中，可观测系统不再仅仅是数据的眼睛，而是逐渐演变为兼具大脑决策能力和手脚执行功能的多面手。专家们指出，必须建立贴近真实场景的评判标准，并在大量生产实践中验证模型表现，才能真正构建起对AI技术的信任机制。

在探讨AI为可观测技术带来的变革时，李也认为主要体现在两个维度：一是“AI赋能可观测”，大型模型能自动生成SQL查询、大盘配置和定时任务，准确率可达80%至90%；二是“可观测反哺AI”，AI系统产生的海量链路数据和复杂的诊断需求，对新一代可观测系统提出了更高要求。董善东补充道，大语言模型为AIOps提供了通用智能底座，显著改变了传统的实施方式，使多模态理解与融合成为可能。

对于如何评估AI智能体能力水平，专家们达成共识：实战表现远比实验室测试分数更具参考价值。董善东提出将AI智能体能力划分为三个梯度：L1级别的单点能力增强、L2级别的自主问题解决、L3级别的持续学习进化。李也指出，当前某些大模型榜单存在刷榜现象，实验室评分往往无法真实反映模型的实战能力，评估体系需要合理划分任务难度层级。

关于大模型与传统算法的关系，王亚普认为二者是分工协作、优势互补的伙伴。传统算法在特定场景下具有快速、精准、稳定的优势，而大模型则擅长处理跨领域复杂信息和具备泛化能力。李也通过“排除法”论证，指出大模型无法完全替代传统算法，尤其在处理原始可观测数据时存在天然短板，需要通过领域微调或强化学习才能发挥实用价值。

在构建AI信任机制方面，专家们提出了多种解决方案。李也认为需要通过大量实践验证与真实场景测试来建立信任，王亚普强调要采用灰度验证等方式逐步放量，建立可解释、可审计、可回滚的保障体系。董善东则建议从“用户易接受场景”切入，让AI润物细无声地融入现有工作流程，逐步积累信任。

展望SRE和运维工程师的未来角色，专家们普遍认为将向“高可用架构师”和“AI训练师”转型。王亚普指出，当AI接手重复性工作后，SRE将有更多时间思考系统架构的合理性问题。董善东认为，SRE将逐步具备AI训练师的角色，通过结构化整理专业知识来赋能AI系统。李也强调，真正的专家型SRE将因为能带领AI团队协作而价值倍增。

在数据质量管控方面，专家们一致认为“垃圾进，垃圾出”的定律在AI时代被显著放大。李也指出需要明确数据字段含义、筛选有价值信息，董善东提出要从“业务易用数据”、“AI易读懂数据”、“系统易联动数据”三个维度进行协同治理。王亚普特别指出，在大模型时代，语义标注的完整性甚至比格式统一更为重要，高质量数据是一切智能分析的基础。

对于未来三到五年可观测技术的发展愿景，王亚普设想可观测平台将进化为智能生命体，能够完成智能化的日常巡检和预测性洞察。董善东认为系统将实现自动告警值班，彻底告别夜间人工值守。专家们普遍认为，实现半自治运维在未来三到五年是可行的，但要达到完全自治仍需面对黑天鹅事件、信任机制、安全保障等诸多挑战。

上一篇：中国人民大学Tool-Light框架解析：如何高效调用AI工具

下一篇：李彦宏AI"非共识"：解码百度大模型破局与未来战略