面包屑图标 当前位置: 首页
AI资讯
热点详情

中国信通院发布AI Infra运维首个评测基准为智算产业高质量发展树立新标尺

AI热点日报
AI热点日报时间:2026-07-01
热点解读

中国信通院发布AISHPerf3 0,新增智算运维与算子生成两项评测基准。前者基于百亿真实运维数据,覆盖五种国产芯片,考核智能体在真实故障场景中的端到端解决问题能力;后者聚焦算子实际部署替代效果。此举填补了国产智算运维评测空白,推动AI基础设施从“能用”向“高效、自治”升级。

6月29日,一场围绕AI基础设施生态协同的高级别研讨会上,中国信通院正式发布AISHPerf人工智能软硬件基准体系3.0版本。本次更新的核心,是两项直指AI Infra关键能力的评测基准——智算运维智能体评测基准与算子生成智能体评测基准。这两个基准由无问芯穹和清华大学团队作为关键技术支撑方参与建设,它们的落地,标志着国内智算产业在标准化进程中迈出了实质性的关键一步。

首先来看这两个基准各自解决的核心问题。智算运维智能体评测基准,是业内首个专门面向AI基础设施运维场景打造的评测体系。它基于百亿级的真实运维数据,重点考察的并非智能体“能聊什么”,而是它在真实生产环境中能否切实解决问题。算子生成智能体评测基准则跳出了一个常见误区——它不再仅仅检验模型能否生成一个可运行的GPU算子,而是将核心聚焦在“生成的算子能否在实际的量化推理部署中,真正替代现有算子”这一工程落地上。一个负责底层算力优化,一个负责上层集群运维,两者相辅相成,为智算产业的标准化升级提供了相对完整的参考框架。

AISHPerf基准体系严格来说并非近期才涌现。它由中国信通院联合人工智能大模型及软硬件评测重点实验室,依托人工智能软硬件协同创新与适配验证中心共同构建,目标明确——通过多维度指标,检验端到端方案对模型和应用场景的真实承载能力,评估软硬件各层级间的协同水平、兼容适配能力及最终交付效能。简单来说,这是一套用于检验软硬件协同能力,而非停留在单点性能测试的体系。

在这两个新基准中,智算运维智能体评测基准尤其值得关注。原因很直接——它填补了一个关键空白:国产芯片集群的运维场景,首次被纳入权威评测体系。这不仅意味着我们在智算集群运维智能体领域拥有了第一个标准化评估工具,更为构建自主可控的“Token工厂”提供了运维层面的技术方向指引。

构建新标准:从“纸上谈兵”迈向“实战考核”

AI发展已进入全新阶段。过去大家比拼的是算力规模,看谁堆的卡多、集群大。但现在,衡量效率的核心指标已转变为“Token效能”。算力与电力投入成为基础常量,真正决定产出效率的是运维能力——能否提升算力利用率、压降运营成本。这已成为行业共识。

问题是,当前业内对运维智能体的评估方式大多停留在语言问答层面。说直白点,就像考试一样,问一个知识点,看它能否答上来。这种方式并非毫无价值,但它更像笔试,考察的是记忆与复述能力,而非实际操作能力。真正需要的是“实战考核”——将它放入真实故障场景,看它能否自行发现问题、定位根源、完成修复。

AISHPerf-智算运维智能体评测基准正是为此而生。它的底座,是无问芯穹沉淀下来的近百亿条真实运维数据。经过资深运维专家的脱敏、标注和严格筛选,最终提炼出103条高保真、高质量的典型评测用例。这些用例覆盖从底层硬件故障到上层软件Bug的全链路问题,构建起一个包含5大技术栈、44种问题现象、22个细分故障领域、3种难度层级、6种国内外芯片(其中5种为国产芯片)的完整评测体系。

评测流程也颇具特色——它不会直接指明故障根因,只提供一个真实集群环境和有限的问题现象描述。然后让智能体自行探索、排查、修复。最终输出的,是时延、Token消耗、工具调用效率等量化指标,直接反映它在真实生产环境中端到端的解决问题能力。

促进新发展:覆盖五种国产芯片,为算力集群从“能用”到“好用”铺路

国产芯片近年来的进步有目共睹。从过去的“跟跑”到部分领域的“并跑”,国产GPU已成为全国算力基础设施的核心组成部分。据IDC数据,2025年中国市场AI加速卡国产化率已突破四成,国产GPU集群规模正快速扩大。但现实问题是,相较成熟的通用GPU生态,国产芯片在硬件架构、驱动体系、通信协议及框架适配等方面均存在显著差异,运维复杂度更高、难度更大。这直接影响了国产算力的Token产出效率与投产效益,成为从“规模落地”向“效能释放”进阶的核心瓶颈。

AISHPerf-智算运维智能体评测基准在设计之初便考虑到了这一问题。它是同类基准中首个纳入国产芯片集群运维场景的,覆盖天数、壁仞、沐曦、摩尔、昇腾这5种国产GPU,具体测试用例涵盖硬件故障、驱动适配、框架兼容、通信协议等典型运维痛点。这一举措的意义在于——它首次为国产智算运维智能体建立了一个统一、可量化的评估标尺,填补了国产智算运维领域的标准空白。

这套体系未来的方向也很明确。中国信通院将持续从标准研制、测试验证、生态培育三个维度推动产业应用,结合无问芯穹在真实运维数据和实战能力上的积累,不断丰富国产芯片相关的评测用例,构建更加体系化、全栈化的评测体系。一方面,精准定位国产芯片集群运维中的共性痛点与工程难点,牵引产业链上下游协同攻关;另一方面,以标准化评测驱动运维智能化能力升级,推动国产算力集群真正从“能用”走向“好用、高效、稳产”。

锚定新趋势:AI基础设施向自主自治的“Token工厂”升级

运维智能体的深度应用,正推动AI基础设施自身向“智能体”形态演进。未来的AI基础设施,应当是一个能够自我感知、自我修复、自我迭代的自主自治系统。内置的运维智能体将扮演管理者角色,根据训练与推理需求自动调度资源、优化系统,实现算法与基础设施的深度协同。这并非遥远愿景——事实上,无问芯穹已在自有AI基础设施中率先部署运维智能体,工单平均处理时间缩短50%,关键故障处理效率提升约6倍,综合运维成本下降约30%。在算力和电能不变的前提下,Token产能实现了显著提升。

AISHPerf-智算运维智能体评测基准,正是为AI基础设施向这种更高阶的“自主自治”范式演进提供标准基础。通过统一的评测体系,为构建高效、稳定、自主的智能运维体系提供指导,加速运维智能体在AI基础设施中的规模化应用。最终目标,是让每一度电、每一张GPU卡,都能产出更多、更高价值的Token——打造真正意义上的“Token工厂”。

展望未来,中国信通院与无问芯穹、清华大学将深化产学研协同,持续迭代优化这套评测基准,不断扩充场景覆盖维度、丰富数据集规模、提升评测结果的可靠性与权威性,推动它成为行业公认的AI集群运维智能体能力评估公共基线。与此同时,AI Infra全领域的核心评测基准布局也在持续推进,一个全栈的标准矩阵正在形成,为建设高效、绿色、自治的新一代AI基础设施筑牢标准底座。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:中国信通院发布AI Infra运维首个评测基准为智算产业高质量发展树立新标尺要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://news.sina.com.cn/sx/2026-06-30/detail-inifenry6644409.shtml
人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-01 21:45
KwalAI Chrome插件 专业高效实用AI智能浏览器在线助手工具

在招聘这个行业中,数据录入的繁琐程度相信大家都有切身体会。每天需要从各类网页、社交平台、招聘站点中搜寻候选人信息,再手动一条条录入系统,既耗时费力又容易出错。今天要介绍的这款Kwal Chrome插件,正是为了彻底解决这一痛点而设计的。什么是 Kwal Chrome 扩展程序 插件?该插件的定位十分

AI热点2026-07-01 21:45
Twinning AI创建AI克隆与粉丝聊天获利

网红经济正在进化——Twinning AI带来的玩法是:粉丝可以直接跟你的人工智能分身聊天,而你,每次互动都能收到真金白银。它集成了专业的声音克隆、文本和语音消息,以及数据分析能力,让粉丝互动变得既有趣又能变&现。 什么是Twinning AI? 简单来说,Twinning AI允许网红创建一个属于

AI热点2026-07-01 21:45
Invoicemint人工智能发票与财务管理软件

在跨境电商和全球业务快速发展的今天,发票与财务管理工具的重要性日益凸显。AI技术的加入,让这些原本繁琐的流程实现了质的飞跃。Invoicemint 正是这样一款专注全球企业的智能发票与财务管理软件——它不只是一个简单的发票生成器,而是一套覆盖从开票、对账到税务合规、催款的全链路解决方案。 什么是In

AI热点2026-07-01 21:45
MyWhy实时AI语音心理治疗师

想象一下,你随时都能找到一个倾听者——不带任何偏见,不会感到疲惫,而且完全匿名。这听起来像科幻小说里的情节,但现在已经成为现实。MyWhy 就是这样一款 AI 心理治疗应用,它将专业的情感支持装进你的口袋,让心理健康服务不再是奢侈品,而是像打开手机一样触手可及。什么是MyWhy?简单来说,MyWhy

延伸阅读