中国信通院发布首个AI Infra运维评测基准
中国信通院发布AISHPerf3 0,新增全球首个智算运维智能体评测基准及算子生成智能体评测基准。前者基于近百亿条真实运维数据,覆盖六种芯片包括五种国产芯片,填补国内空白;后者聚焦算子工程落地能力,推动国产算力从能用迈向好用。
AISHPerf体系本身,由中国信通院联合人工智能大模型及软硬件评测实验室,依托国家信创园的人工智能软硬件协同创新与适配验证中心共同搭建。它的目标非常明确:通过多维度指标,考察端到端方案对模型和应用场景的真实承载能力,评估软硬件各层级的协同优化水平与兼容适配能力。
而本次发布的智算运维智能体评测基准,意义尤为突出。它不仅填补了国内在智算集群运维智能体评测领域的空白,更关键的是,将国产芯片的集群运维场景纳入评测体系。这对于构建自主可控的新一代“Token工厂”而言,等于明确了技术方向和标准指引。
**构建新标准:从“纸上谈兵”到“实战考核”**
AI产业已经迈入新阶段。过去比拼的是算力规模和芯片数量,但如今核心指标已转变为“Token效能”。算力和电力成为基础投入,而真正决定产出效率的,是运维能力。然而现实是,市面上对运维智能体的评测大多停留在“语言问答”层面,如同一场笔试,考的是谁背的标准答案更准确,根本无法判断智能体在真实机房里能否“干活”。
这个新基准的破局点就在于此。它摒弃虚浮的测试方式。以无问芯穹积累的近百亿条真实运维数据为底座,经过资深运维专家脱敏、标注和筛选,最终提炼出103条高保真、高质量的评测用例。这些用例覆盖了从底层硬件故障到用户侧软件Bug的完整链路,涉及5大技术栈、44种问题现象、22个细分故障领域,并划分为3种难度层级。更值得关注的是,它覆盖了6种国内外芯片,其中5种为国产芯片。
评测流程也极具“实战”色彩:不告知故障根因,只提供真实集群环境与有限的现象描述,智能体需要自行探索、排查、修复。最终考核的是时延、Token消耗、工具调用效率等硬指标——这才是真正检验端到端问题解决能力的方式。
**促进新发展:五种国产芯片覆盖,为国产算力从“能用”到“好用”铺路**
国产芯片近年来进步显著,从“跟跑”到部分领域“并跑”,已成为全国算力基础设施的核心组成部分。IDC数据显示,2025年中国市场AI加速卡的国产化率已突破四成,国产GPU集群规模正快速扩张。但问题也很现实:相比成熟的通用GPU生态,国产芯片在硬件架构、驱动、通信协议、框架适配等方面仍存在较大差异,运维的复杂度和难度更高。这直接拖累了国产算力的Token产出效率,成为从“规模落地”迈向“效能释放”的关键瓶颈。
而这一新基准在设计之初便将国产化生态置于重要位置。它率先在同类评测中纳入了天数、壁仞、沐曦、摩尔、昇腾这5种国产芯片的集群运维场景,覆盖了硬件故障、驱动适配、框架兼容、通信协议等典型痛点。这相当于首次为国产智算运维智能体建立起统一、可量化的标尺,填补了标准空白。
接下来,中国信通院计划从标准研制、测试验证、生态培育三个方向持续推动该基准的产业应用。结合无问芯穹的真实运维数据积累和实战能力,不断丰富国产芯片相关的评测用例。一方面精准定位共性痛点和工程难点,牵引产业链上下游协同攻关;另一方面,用标准化评测倒逼运维智能化能力的升级,推动国产算力集群真正实现从“能用”到“好用、高效、稳产”的质变。
**锚定新趋势:AI基础设施向自主自治的“Token工厂”升级**
运维智能体的深度应用,正在推动AI基础设施本身的形态升级。未来的AI基础设施,应成为能自我感知、自我修复、自我迭代的自主自治系统。内置的运维智能体扮演“管理者”角色,根据训练和推理需求自动调度资源、优化系统。这并非概念炒作——无问芯穹已在自有AI基础设施中率先部署运维智能体,效果显著:工单平均处理时间缩短50%,关键故障处理效率提升约6倍,综合运维成本下降30%。在算力和电能不变的前提下,Token产能实现了显著提升。
AISHPerf-智算运维智能体评测基准,正是为这种向“自主自治”范式的演进提供了标准基础。通过统一的评测体系,指导构建高效、稳定、自主的智能运维体系,加速运维智能体的规模化应用,最终实现Token产能的降本增效——让每一度电、每一张GPU卡,都能产出更多、更高价值的Token。
未来,中国信通院将与无问芯穹、清华大学继续深化产学研协同,持续迭代该基准。不断扩充场景覆盖、丰富数据集、提升评测结果的可靠性与权威性,推动其成为行业公认的AI集群运维智能体能力评估公共基线。同时,双方也在拓展AI Infra全领域的核心评测基准布局,构建全栈的标准矩阵,为建设高效、绿色、自治的新一代AI基础设施筑牢标准底座。 你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:中国信通院发布首个AI Infra运维评测基准要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在招聘这个行业中,数据录入的繁琐程度相信大家都有切身体会。每天需要从各类网页、社交平台、招聘站点中搜寻候选人信息,再手动一条条录入系统,既耗时费力又容易出错。今天要介绍的这款Kwal Chrome插件,正是为了彻底解决这一痛点而设计的。什么是 Kwal Chrome 扩展程序 插件?该插件的定位十分
网红经济正在进化——Twinning AI带来的玩法是:粉丝可以直接跟你的人工智能分身聊天,而你,每次互动都能收到真金白银。它集成了专业的声音克隆、文本和语音消息,以及数据分析能力,让粉丝互动变得既有趣又能变&现。 什么是Twinning AI? 简单来说,Twinning AI允许网红创建一个属于
在跨境电商和全球业务快速发展的今天,发票与财务管理工具的重要性日益凸显。AI技术的加入,让这些原本繁琐的流程实现了质的飞跃。Invoicemint 正是这样一款专注全球企业的智能发票与财务管理软件——它不只是一个简单的发票生成器,而是一套覆盖从开票、对账到税务合规、催款的全链路解决方案。 什么是In
想象一下,你随时都能找到一个倾听者——不带任何偏见,不会感到疲惫,而且完全匿名。这听起来像科幻小说里的情节,但现在已经成为现实。MyWhy 就是这样一款 AI 心理治疗应用,它将专业的情感支持装进你的口袋,让心理健康服务不再是奢侈品,而是像打开手机一样触手可及。什么是MyWhy?简单来说,MyWhy
- 日榜
- 周榜
- 月榜
热点快看
