首个人工智能基础设施运维智能体评测基准开源
全球智能体加速落地的背景下,算力需求正在指数级爆发。GPU 为核心的 AI 基础设施,已经成为整个产业最关键的底层支撑。 摩根士丹利的报告预测,到 2028 年,全球 AI 基础设施累计投资总额将高达 2 9 万亿美元。但一个容易被忽略的事实是:按照行业通用成本结构测算,运维人力、故障损失和集群闲置
全球智能体加速落地的背景下,算力需求正在指数级爆发。GPU 为核心的 AI 基础设施,已经成为整个产业最关键的底层支撑。
摩根士丹利的报告预测,到 2028 年,全球 AI 基础设施累计投资总额将高达 2.9 万亿美元。但一个容易被忽略的事实是:按照行业通用成本结构测算,运维人力、故障损失和集群闲置这三项加在一起,占比可达 15%~20%。换句话说,全行业潜在的可优化空间超过 4350 亿美元——这是一个足以改变竞争格局的数字。
早在去年 10 月,无问芯穹就率先启动了运维智能体的研发和部署。实践结果很直观:相比传统人工运维,智能体让工单平均处理时长缩短了 50%,关键故障处理效率提升了约 6 倍。运维人员终于可以从重复性的排查工作中解脱出来,人效提升 5 倍以上,综合运维成本下降约 30%。这些数字背后,是大规模 GPU 训练与推理业务更稳定、更高效的基础设施保障。
但这里有一个核心问题:究竟什么样的运维智能体才算“好用”?
AI 集群运维本身就是一个极具挑战性的场景——复杂的系统知识、多样化的工具调用、长链路的推理判断,每一项都是在考验智能体的综合能力。过去我们评价模型,看重的是语言能力;而当 AI 真正进入基础设施领域后,评判标准已经变了:能不能解决实际问题,最终会影响到每一度电、每一张 GPU 卡的产出效率。
基于这样的现实,中国信息通信研究院推出了首个面向 AI Infra 运维的智能体评测基准——AISHPerf-智算运维智能体评测基准。无问芯穹作为重点技术支持单位参与了基准建设,基于积累的近百亿条真实运维数据,为智能体在智算运维场景的落地定义了问题范围,也提供了一个可参考的基线。
与传统 Benchmark 不同,AISHPerf 不关心模型“说得多好”,只关注它“能不能把事情做成”。这套基准测试的开源,旨在与行业共同探索智能体在 AI 原生基础设施运维领域的能力边界,推动“AI for Infra”与“Infra for AI”的双向赋能与协同进化。
- 开源地址:https://gitee.com/aishperf-caict/aishperf_openness
- 配套故障模拟器:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos
- 运维数据集:https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl
- 评测框架:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval
不再纸上谈兵,让运维智能体真正解决现实中的生产问题
2025 年 4 月 7 日,无问芯穹某客户反馈训练任务出现无规律的剧烈性能波动。基础设施团队第一时间介入,先后排查了网络链路、存储性能、节点硬件状态等所有常规维度,均未发现异常。为了定位这个“幽灵故障”,团队前后投入 7 名资深研发运维人员,连续奋战 15 天,从用户训练框架的模型切分策略,一路向下排查到网络协议、存储参数配置。最终才发现,问题根源与存储系统的预期缓冲机制设计存在偏差。
这场持续半个月的故障,累计消耗 105 人天的研发运维人力,256 台服务器全程处于闲置空转状态。如果排查周期再拉长、故障持续发酵,直接后果就是大规模资源空转、客户训练进度停滞,甚至灾难性的业务停摆与资产损失。而像这样隐蔽、复杂、跨技术栈的故障,在基础设施服务商的日常中并不罕见。
正是基于无数次这样苦涩的实战教训,团队决心将碎片化的运维经验结构化、标准化,为运维智能体明确核心问题边界,并提供一套可执行的评测基准。本次基准全程由领域专家主导,邀请了多位资深运维专家对数据进行精细标注与严格筛选,确保每一条问题都具备真实生产价值与高质量评测意义。
(一)真实生产场景的数据积淀
AISHPerf-智算运维智能体评测基准源自无问芯穹自成立以来积累的百亿条真实运维数据。经过筛选,获得了十万条场景真实、链路完整、信息完备的有效数据。再经过严格的三阶段数据工程处理,最终抽象合成为 103 条高质量、高保真的评测用例。
数据收集范围覆盖 2024 年至 2026 年 1 月的全部用户工单及其关联的 IM 话题与文档附件,以及所有线上集群的监控告警数据。通过过滤低质内容、去重、脱敏等严格清洗流程,剔除了客户需求、未查明原因、与平台逻辑强耦合等不适合作为通用评测的内容,最终保留了无重复、高质量、信息安全的问题样本。每条用例都包含真实的问题现象、完整的排查链路和明确的故障根因,确保评测结果能够真实反映智能体在生产环境中的实际表现。
(二)多样化的跨层栈问题覆盖
AI 原生基础设施平台的运维复杂度远超传统 IT 基础设施。故障可能发生在从裸金属硬件到上层训推框架的任何一层。因此,这一基准打通了从底层硬件故障到用户侧软件 Bug 的全链路问题,囊括多种表现形式、故障根因和修复方案。不仅全面涵盖网络、GPU、宿主机、云原生平台等传统运维领域,更首创性地纳入了 AI 原生领域的大模型训练、推理关键问题。同时,问题覆盖天数、壁仞、沐曦、摩尔、昇腾 5 种国产芯片,真正实现了多维度、多层次、多样化的问题场景全触达。
按照技术栈层级,问题被划分为宿主机、高性能设备、容器平台、训推脚本、安全与运营商五大类,涵盖 44 种问题现象和 22 个细分故障领域,基本覆盖了真实运维场景中可能遇到的所有情况。所有问题共分为 3 种难度级别,平均人工处理耗时约为 1.5 小时,充分保障了问题的复杂性与挑战性。
(三)开放式的故障探索与处置
传统的模型评测往往更像是笔试,侧重考察知识记忆与标准答案复述。而 AISHPerf-智算运维智能体评测基准是一场实操考核——聚焦于考验智能体贴近生产环境的端到端问题解决能力。基准不明确指出故障根因,只提供真实的集群环境和有限的问题现象描述,要求智能体自主探索、自主排查、自主修复。这对智能体提出了极高要求:必须理解从物理设备到上层软件实现的多层复杂技术栈,能够正确与真实环境交互,高效处理长上下文信息,并在复杂场景中完成多跳推理与决策。
举个例子:针对“训练任务卡死”这一常见问题,评测系统会注入特定故障,并启动一个开发机容器,其中包含隐藏了源代码的训练脚本。智能体只会收到一段描述训练任务卡死的客户反馈和复现方式,必须自行复现问题、排查可能的原因、验证假设并最终修复故障。这种开放式的评测方式,能够真正检验智能体的自主决策能力和问题解决能力,而不仅仅是知识记忆能力。
配套利器:GPU 集群故障模拟工程
在大规模 GPU 集群的运维实践中,如何在不破坏生产环境的前提下验证系统的故障恢复能力,一直是行业普遍面临的棘手挑战。物理硬件故障注入成本极高、速度慢且不可重复;而脱离真实集群用纯软件模拟,又存在真实度不足的问题。
为了解决这一难题,AISHPerf 配套提供了 AIops-Chaos:一个专为 GPU 集群设计的混沌工程项目。其核心思路是通过软件层精准模拟各类硬件故障场景,包括 GPU 掉卡、显存错误、NVLink 故障、网络分区等典型异常,同时结合真实的业务负载构造高保真的测试环境。这种“软件模拟+真实集群”的模式,既避免了物理损坏带来的高昂代价,又确保了故障注入的可控性与可重复性。
在工程实现上,AIops-Chaos 针对 GPU 与 RDMA 等智算集群的故障场景,采用了创新的技术方案:
- GPU 故障模拟:通过劫持 nvml 库,实现了支持注入多种 GPU 故障的 nvidia-smi,包括温度异常、掉卡、频率异常、风扇故障等
- RDMA 故障模拟:端侧故障直接操作物理机;对交换机故障,采用 rdma hostmesh 作为可观测方案,通过构造故障指标来模拟
AIops-Chaos 展现出高效、低成本、快速的优势。仅需一台 GPU + 多轨 RoCE NIC 服务器,即可支持构造多机任务故障现象,并实现分钟级的故障编排与自动化恢复验证。
科学量化:一个多维度评估体系
(一)评估指标
AISHPerf 采用多维度综合评估体系,评估指标以结果为导向,分为主指标与辅助指标。不仅关注智能体解决问题的正确率,还全面考量时延、Token 消耗、工具调用效率等关键指标。
1.1 主指标:综合得分
主指标为综合得分,用于衡量智能体在整个运维任务集上的总体解决能力。每个任务评价智能体归纳的根因与事实是否相符,相符得 1 分,否则不得分,可得到每一类任务的成功率。计算总分时,对不同难度的任务赋予不同的权重。具体配置意味着:要获得更高的分数,必须做对中等和困难题目。
1.2 辅助指标:平均耗时、平均 Token 消耗与工具调用次数
辅助指标由平均耗时与平均 Token 消耗构成,用于评估智能体解决实际问题的时效性与成本。平均耗时衡量智能体完成任务时的时延表现,单位为秒/任务;平均 Token 消耗衡量智能体完成任务的资源成本,单位为 Token/任务。此外,如果智能体不调用工具直接猜答案,即使答案正确也会判为错,以此确保智能体是实际与环境交互后推理得出答案。
(二)评估框架
当前社区的评测工具普遍存在三大痛点:缺乏对各类智能体应用的统一接口支持、仅关注最终答案而缺少对中间过程的细粒度评测、不包含环境定义与构造流程。为了解决这些问题,我们开发了 AIops-Eval:一个端到端的智能体评测工具链。它包含五个核心子模块:
- User 模块:负责与智能体交互,支持数据集驱动的固定输入和 LLM 驱动的真实用户模拟
- Agent 模块:待评测对象,原生支持本地 LLM 和基于 langgraph 构建的本地智能体,并预留了远程智能体接口
- Env 模块:为智能体提供交互环境,负责每轮测例前后的环境构造与清理
- Evaluator 模块:对智能体的完整轨迹进行评测,支持自定义规则评测和 LLM-as-a-judge 评测
- Tracing 模块:基于开源的 langfuse 实现,完整采集智能体的执行轨迹
实测验证
我们对基于 ReAct loop 的简单智能体进行了全面测试。测试使用了多款不同大小的国内外主流模型。为了公平测试模型自身的长程多跳推理能力,智能体只使用 shell 工具,且无法连接互联网进行搜索。
从测试结果来看:
- 所有模型的总得分均在 50 分以下,但达到了数量级的时效性提高
- 成功率相比人类运维专家仍有明显差距
进一步分析不同难度分类下的表现:
- 中等与困难难度上,所有模型的正确率均小于 50%。这意味着即使是旗舰模型,也难以稳定、出色地解决复杂运维问题。
- 面对困难问题,tool call 时间占比显著增加,但正确率下降,说明模型无法精准有效地采集信息。
- 不同难度问题的 Token 消耗没有数量级差别,这意味着在运维领域,面对简单问题,智能体无法像人类一样快速做出精确判断。
从技术栈维度看,模型更善于处理单纯的代码类 bug,而在硬件故障上,模型的正确率普遍偏低,Token 消耗更高。说明模型对于硬件故障的置信度不够高,倾向于反复思考和确认——智能体与运维专家的技能可能存在正交性。
基于对大量测试轨迹的分析,我们总结出智能体在解决运维问题时的几种典型失败模式:
- 处理任务的稳定性不足:模型可能生成不符合工具调用解析规则的 Token,导致智能体执行异常终止;也可能违反输出格式要求或执行禁止的危险操作,导致任务无法得分。
- 推理链的质量差:模型可能给出治标不治本的临时方案来达到表面上的修复效果;可能输出看似合理但经不起推敲的推理过程;可能只输出宽泛的排障思路,不经过考证就直接给出结论。
- 决策与执行不够安全:模型可能执行危险的工具调用,执行过程卡死,导致整个物理环境崩溃,甚至需要运维人员人工介入才可恢复。
实践思考与未来展望
过去一年 AI 的发展态势有目共睹。从大模型到智能体,从训练到推理,行业正在形成一个共同的认知:技术发展的瓶颈早已不再局限于模型层,底层算力基础设施同样是决定产业上限的关键要素。
AI 系统本质上已经演变成一座“Token 工厂”:模型是生产逻辑,数据是原材料,而 GPU 集群则是生产设备,工厂的最终产出是一个个 Token。但当我们把视角下沉到更底层,就会发现一个更现实的问题:“Token 工厂”远没有想象中那么高效。
AISHPerf-智算运维智能体评测基准正是基于长期在 AI 基础设施领域建设与实践的经验,针对 Token 工厂全栈提效的阶段性思考与探索成果。AI 正在重塑基础设施,基础设施也在反过来决定 AI 的效率上限。在这两者不断交织的过程中,我们希望此次的工作能够成为一个小的起点——让“系统自己解决问题”这件事,变得更可衡量,也更可实现。
此次开源只是一个开始,未来仍有大量工作可深入挖掘。我们将持续合成更丰富、高质量的数据,覆盖更多技术栈与领域,更全面地捕捉智能体的运维能力演进趋势;并同步完善 AIops-chaos 混沌工程,实现更丰富、真实、鲁棒的故障注入,为智能体搭建更完善可信的故障模拟环境,提升数据集丰富度与评测结果可靠性。
同时,我们将在评测框架上做更开放的支持。目前测试的 Baseline Agent 基于 ReAct 范式构建,后续将逐步扩展评测框架的适配能力,让不同类型的智能体都可以无缝接入,而不是被限制在某一种范式下进行对比。
立足当下国产芯片大力发展、国产 GPU 集群建设日益蓬勃的产业背景,面向国产 GPU 集群的运维工作愈发关键,新问题与挑战也将随之增加。我们将不断在评测集中拓展面向国产芯片集群运维的特定场景及问题,填补国产智算运维评测领域的空白,从而有效助力国产芯片集群运维能力的智能化升级。
我们将持续深化与中国信息通信研究院、清华大学等产学研机构的技术协同,同时也期待每一位社区开发者的加入共建,共同推动运维智能体技术稳步发展并成为整个行业共享的能力。
如果说目前完成的工作是在回答“什么是一个好用的运维智能体”,那么接下来,我们更想与行业一起探索的是:在真实世界中,这件事情还能走多远。我们期待 AISHPerf-智算运维智能体评测基准可以不止于一款“评测工具”,而是逐步演进为 AI 集群运维智能体能力的公共基线——不同团队可以在同一套标准下验证能力、对齐认知,甚至推动一些最佳实践的沉淀。
- 开源地址:https://gitee.com/aishperf-caict/aishperf_openness
- 配套故障模拟器:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos
- 运维数据集:https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl
- 评测框架:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:首个人工智能基础设施运维智能体评测基准开源要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点对于房地产经纪人来说,效率直接决定了交易成功率。Saleswise作为专为房产行业打造的AI平台,正是为了破解这一难题而生——它将重复性高、耗时冗长的任务全部交给自动化流程,帮助经纪人把精力集中在真正能推动成交的核心环节上。 什么是Saleswise? Saleswise是一款面向房地产领域的智能A
谷歌DeepMind与BioNTech合作研发AI科学助手,可规划实验、预测结果,由诺贝尔奖得主DemisHassabis领导,旨在推动医疗、能源等领域变革。具体分工未公布,合作可能强化底层推理能力,行业认为将带来变革性影响。
谷歌加速研发通用推理AI模型,以追赶OpenAI的o1系列。该模型采用思维链提示技术,能进行逐步推理和多候选方案自我辩论,擅长数学和编程,但需更多处理能力和能源,预计未来数月有新进展。
OpenAI 最近放了个大招,正式推出一个叫 Canvas 的新工具——专为写作和编码打造。如果说之前的 ChatGPT 更像对话助手,那这次的 Canvas 就升级成了协作伙伴,已经超越了传统聊天的范畴。 从官方介绍来看,这次的设计思路很清晰:Canvas 能更好地理解任务背景。比如你在写文章或改
- 日榜
- 周榜
- 月榜
热点快看
