AI时代,三大互联网巨头交锋可观测边界?

LLM的推理能力与生成式AI的数据理解能力,为可观测技术的发展提供了全新思路。另一方面,可观测技术也在反哺AI领域。那么,AI与可观测技术是如何实现双向赋能的?AIOps从概念验证到实际落地的发展路径又是怎样的?
近日,InfoQ《极客有约》栏目联合AICon全球人工智能技术大会,特邀阿里云可观测技术架构负责人张城担任主持人,与阿里云算法专家李也博士、字节跳动Dev-Infra观测平台算法负责人董善东博士、小红书可观测团队负责人王亚普共同探讨AI时代可观测技术的新边界。
部分精彩观点如下:
传统可观测技术主要是"看见",而未来的新一代运维范式有望实现"发现-分析-解决-复盘"的完整闭环。在这个过程中,可观测系统正从单纯的"眼睛",进化为同时承担"大脑决策"和"手部执行"的多重角色。
只有当我们拥有贴近真实业务场景的评估标准,并在海量实际案例中验证模型表现,确认它在应当承认"不知道"时能坦诚地说"不会",不编造虚假答案、不生搬硬套,我们才能真正建立对AI系统的信任机制。
"垃圾进,垃圾出"的定律在AI时代不仅依然适用,反而因LLM对数据规模和质量的高度依赖被显著放大。
三到五年内实现"半自治运维"是可行的,部分场景甚至能达成闭环自动化。但要达到完全自治、真正实现所谓的"咖啡式运维"——即在享用咖啡的同时,系统已自动完成各项运维操作——仍有很长的路要走。
以下内容基于直播速记整理,经InfoQ编辑。
完整直播回放可查看:https://www.infoq.cn/video/YOTeVHta0A3Xqq2l4Bbp
张城:在你们看来,AI正在为可观测性带来哪些根本性的、不同于以往的改变?
李也:首先是"AI赋能可观测"。过去我们需要手动编写SQL来提取和分析数据。而现在,只要为大型语言模型提供清晰的上文和标准化的数据结构,它就能出色地自动生成SQL语句、自动完成大盘配置和定时任务。我们内部评估显示,在上下文信息充足的情况下,大模型在此类任务上的准确率可达80%-90%,甚至超过不熟悉SQL的工程师。这意味着数据提取方式已被彻底改变。
在更具探索性的关联分析方面,AI同样能提供有力支持。例如,将复杂的系统界面截图交给大模型进行分析,其效果有时优于初级工程师的分析质量。虽然它目前还无法替代领域专家进行根因分析,但已能够显著提升所有工程师的工作效率。我们将逐步从"供人分析"转向"供AI理解"。未来的关键不再仅仅是美观的可视化呈现,而是如何以结构化的方式组织数据,使其能够高效地被大模型理解与利用。
其次是"可观测反哺AI"。AI系统的出现带来了新的可观测需求。大模型的每次调用都会产生计算成本,因此生成的所有链路追踪数据都会被完整保留,这大幅增加了存储需求。同时,AI系统的分析和诊断也更为复杂。例如,当一个大型模型在工作流执行中出现问题,我们需要能够诊断其原因,并评估其性能。比如,在RAG环节是否检索到正确文档?幻觉是在哪个阶段产生的?这些都对新一代可观测系统提出了更高要求。此外,在大规模GPU集群中实现高效可观测与故障自愈,也带来了新的技术挑战。
董善东:LLM为可观测领域提供了一个通用的"智能底座",显著改变了传统AIOps的实施方式。过去我们实施AIOps算法往往需要从零开始:明确业务目标、收集清洗数据、再建模训练与调优。而LLM的引入,为我们提供了一个天然的"六七十分"基础能力,使我们能够在具体场景中更快、更好地构建出可用的解决方案原型。正如许多专家所言,LLM相当于为各行各业配备了一名具备通用能力的大学毕业生。而后续的深度优化与业务适配,仍需领域专家结合行业知识完成。
LLM在处理多模态信息理解与融合方面表现出色,其效果提升与反馈机制也更加高效。
关键在于如何有效利用多模态上下文:我们的工作重心转变为如何为LLM提供更全面、高质量的上文信息,而最困难的多源信息融合与理解环节,则由LLM自身承担。以异常检测为例,传统方法往往局限于单一指标,而LLM能够综合分析多维度数据,实现更全面的异常判断。更优质的上下文信息,必将带来更加出色的检测效果。
此外,传统方法中融入人工反馈通常需要重新训练模型,而LLM凭借其强大的文本理解能力,可以快速、灵活地将人工反馈应用于下一次检测任务中。
相较于传统AIOps往往针对单点场景进行优化,LLM的引入使得从告警产生到问题解决的全生命周期管理——包括发现问题、分析原因、处理过程和复盘优化——都成为可能。我们可以在现有可观测数据平台与各类小模型能力的基础上,通过智能体架构将整个运维流程有效串联起来:LLM与领域知识共同构成决策"大脑",而传统算法则作为"工具手"被智能体调用,让智能体能够逐步处理告警,并与运维人员进行协同工作。未来,它甚至可能像数字化员工一样,承担起SRE的部分职责。
王亚普:AI训练过程中出现问题时,往往表现为整个系统性能的"卡顿",这使得系统复杂度和稳定性显著增加。
过去,可观测技术主要依赖规则和阈值告警来处理已知问题;而AI的引入让系统具备了一定的语义理解和推理能力,可以对未知问题进行分析和验证。而在以往的工作场景中,人工排查一个性能劣化问题可能需要数小时。而借助AI,我们可以自动分析指标、链路和变更之间的关联,从而从被动响应转向主动可观测,甚至进一步实现推理与洞察能力。
过去,运维或研发人员需要掌握复杂的查询语言,并理解监控平台的各种概念。而现在,AI使得可观测技术变得"对话式",工程师只需输入诸如"帮我查一下最近日志成功率"这样的自然语言请求,大模型即可完成分析。历史上,可观测平台往往是支撑性系统,难以满足各业务线的定制化需求。但有了AI,自助服务和个性化编排成为可能。可观测平台可以聚焦于底层能力与抽象输出,业务团队则能自由组合工具,实现"千人千面"的个性化运维体验。
第三个层面是形成智能决策的闭环。
张城:对于一个AI智能体,我们到底该如何衡量它的"智能"程度?是实验室评估集的分数更重要,还是它在复杂线上环境中解决实际问题的能力更关键?
董善东:衡量一个AI智能体的智能水平,应从通用能力和专属能力两方面来考量。对于通用化能力,现在无论是对LLM基准测试的MMLU、MATH等指标,还是专门针对智能体能力评估的标准——如AgentBench、SWE-bench等——都很好地度量了LLM在通用理解、推理、规划等方面的能力。
而对于专属能力,这里则更需要考虑它解决实际问题的能力。这一点在可观测领域尤为显著。当然,AIOps社区已经围绕可观测领域构建了一些测试集以及对应的数据集,这些数据集可以作为参考。但是在各个企业内部,我们看到的是有更多相对复杂、需求也不一定是标准化的问题,这对于AI智能体的实战能力要求也是更高的。
以根因分析为例,我个人简单将其分为三个级别,供大家参考:
L1级别:单点增强。在某个具体问题上的分析流程,仍是人工主导的流程,但是AI智能体可以协助完成某些环节的分析工作。
L2级别:问题自主解决。RCA过程实现完全Agent化——当某个预设指标出现异常后,AI智能体能够按照标准作业程序进行规划、执行,直至完成定位。
L3级别:自主学习。在人类设定的任务目标和业务知识基础上,它可以自行查阅团队内部的技术文档和代码实现,进行知识提炼和学习。当用户询问某个故障排查流程时,它也能自主完成评估并输出正确结果。
李也:实战能力更为重要,评估应尽量贴近真实业务场景。目前一些大模型排行榜存在"刷榜"现象。以SWE Bench Verified为例,其仅包含约500道题目。如果让算法工程师每天去人工标注这些案例,持续一年,也几乎不可能"背熟"整个数据集。这种通过人为拟合标准答案获得高分的方式,往往无法真实反映模型在实战中的表现水平。
类似问题在其他领域同样存在。例如在微服务场景中,实验室基准测试通常只涉及十来个服务,而真实生产系统可能有上百个服务,且每个服务都包含大量操作,复杂度完全不在一个量级。实验室中通过混入少量已知故障点进行测试,但在现实中却可能遇到千奇百怪的异常情况。如果仅用已知问题去验证模型,算法表现可能并不优于规则系统,无法体现大模型在未知场景中的泛化能力。
评估任务难度是关键。不能让"小学生去答高考题"。同样,如果让大模型直接处理L3级别的复杂任务,可能全部失败,但这并不代表AI完全无用,而是说明它目前尚不适合处理此类高阶场景。相反,在将自然语言查询转换为SQL或PromQL等任务中,大模型已经能够可靠地将查询意图转换为正确语法。
张城:大模型的出现,是否意味着我们过去所依赖的传统算法遇到了瓶颈?大模型在处理可观测数据时,具体带来了哪些"质"的差异?
王亚普:传统算法虽然在某些特定场
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
2026款金钢炮:商乘两用皮卡新选择,实用配置剖析
在皮卡市场竞争愈发激烈的背景下,2026款金刚炮以升级配置和优化性价比的策略正式亮相。作为年度改款车型,新车延续了现款车型的时尚多用途皮卡定位,同时在外观设计、货箱功能、内饰配置及动力系统等方面进行
公募基金业绩比较基准规则将调整 监管新规正征求意见
公募基金行业即将迎来一项重要改革——业绩比较基准规则的征求意见稿预计将于近期发布。这一规则由中国证券投资基金业协会牵头制定,旨在进一步规范基金产品的业绩评价标准,强化基准的约束作用。根据多方消息,此
华为激光雷达装机量领跑:捆绑策略助力市场份额达41.1%
盖世汽车最新发布的2025年1-8月激光雷达供应商装机量统计显示,华为科技以643826台装机量占据榜首,市场份额达41 1%。这一数据引发行业关注,博主@Blood旌旗直言 "国内第一即全球第一 "的
胖东来50万天价研学引热议,3小时交流为何引关注?
近期,胖东来创始人于东来因推出高价个人交流服务再度引发舆论关注。根据其社交媒体发布的最新方案,企业家若想获得与于东来本人进行三小时面对面分享的机会,需支付50万元费用,且每月仅限一次。胖东来商贸集团
小米YU9增程版假想图:纯电续航超300公里,加长版更大气
10月22日消息,近日,知名汽车平台易车网发布了小米汽车首款增程SUV——YU9 的假想图。而作为小米切入增程赛道的首款车型,新车延续了 SU7、YU7 奠定的家族化设计语言。从假想图细节可见,YU
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















