信通院牵头智算运维智能体评测基准落地,覆盖5款国产芯片
6月29日,一场由信通院、中国人工智能产业发展联盟、工信部人工智能标准化技术委员会联合主办的“众智”大模型开放智算生态协同高级别研讨会上,中国信通院副院长魏亮正式发布了AISHPerf人工智能软硬件基准体系的3 0版本。本次亮相的核心亮点,是两项AI Infra领域的重磅评测基准——一项专注于智算运
6月29日,一场由信通院、中国人工智能产业发展联盟、工信部人工智能标准化技术委员会联合主办的“众智”大模型开放智算生态协同高级别研讨会上,中国信通院副院长魏亮正式发布了AISHPerf人工智能软硬件基准体系的3.0版本。本次亮相的核心亮点,是两项AI Infra领域的重磅评测基准——一项专注于智算运维的智能体评测基准,另一项则针对算子生成的智能体评测基准。这两项基准的背后,有国内顶尖AI原生基础设施服务商无问芯穹和清华大学团队作为关键技术支撑方,深度参与并主导了建设工作。
首先来看第一个基准,它是业界首个专门针对AI Infra打造的运维智能体评测基准,这一地位绝非虚言。该基准依托百亿级真实运维数据构建,其核心考核指标是:智算运维智能体在真实生产环境中,究竟能否切实解决实际运维难题?而第二个基准则突破了“模型能否生成可运行的GPU算子”这一基础层面,将评测重点锚定在“生成的算子,在真实的量化推理部署场景里,能否有效替代现有算子”这一更贴近工程落地的关键问题。简而言之,就是考察它是否真正具备实用价值。这两个基准,一个从底层算力优化着手,另一个从上层集群运维把关,共同为智算产业的标准化升级与高质量发展,构建了一个统一的能力评估框架。

AISHPerf,全称Performance Benchmarks of Artificial Intelligence Software and Hardware,是中国信通院联合人工智能大模型及软硬件评测工业和信息化部重点实验室,依托位于国家信创园的人工智能软硬件协同创新与适配验证中心,共同构建的一整套基准体系。其目标十分明确:设置多维度考核指标,考察端到端方案对模型及应用场景的真实承载能力,系统评估软硬件各层级间的协同优化水平、兼容适配能力,以及整体的交付效能。
在这两项新基准中,AISHPerf-智算运维智能体评测基准尤其引人瞩目。它不仅是中国首个针对智算集群运维智能体的权威评测体系,更率先将国产芯片集群运维场景纳入评测范围,填补了国产智算运维智能体评测领域的空白。这意味着,在构建自主自治的新一代“Token工厂”过程中,运维领域将获得一套清晰的技术发展方向和标准指引。
标准体系革新:从理论验证迈向实战效能考核
随着AI发展从“堆算力、拼规模”进入以“Token效能”为核心的新阶段,算力和电力投入已成为AI基础设施的“基础常量”。而高效率、高质量的运维能力,则成为了决定Token产出与生产力转化的“核心变量”。借助智能运维来提升算力利用效率、降低运营成本,已是AI产业发展的必然趋势。然而,当前业界对运维智能体的评估,大多仍停留在语言问答能力层面,本质上属于“纸上谈兵”——更像是一场笔试,考核的是知识记忆和标准答案的复述,根本无法反映智能体在实际场景中“能否解决真实问题”。
AISHPerf-智算运维智能体评测基准,正是这样一套锚定真实生产场景的实操型评测体系。它以无问芯穹沉淀的近百亿条真实运维数据为基础,经过资深运维专家的脱敏处理、精细标注和严格筛选,最终抽象提炼出103条高保真、高质量的典型评测用例。同时,它打通了从底层硬件故障到用户侧软件Bug的全链路问题,构建起覆盖5大技术栈、44种问题现象、22个细分故障领域、3种难度层级、6种国内外芯片(其中5种为国产芯片)的立体化、科学评测体系。在评测流程中,系统不明确指出故障根因,仅提供真实的集群环境和有限的问题现象描述,要求智能体自主探索、自主排查、自主修复。最终输出时延、Token消耗、工具调用效率等关键维度的量化结果,从而全面、客观地评估运维智能体在真实生产环境中端到端解决问题的能力。
生态发展助推:覆盖五种国产芯片,从“能用”迈向“好用”
国产芯片作为我国智算产业自主可控的核心底座,近年来实现了从“跟跑”到部分领域“并跑”的关键跨越,已成为全国算力基础设施体系的核心组成部分。据IDC统计,2025年中国市场AI加速卡国产化率已突破四成,国产GPU集群规模进入快速扩容期。但问题在于,相较于成熟的通用GPU生态,国产芯片在硬件架构、驱动体系、通信协议及框架适配等层面存在显著技术差异,运维复杂度与难度更大,直接制约了国产算力的Token产出效率与投产效益。这已成为国产算力从“规模落地”向“效能释放”进阶的核心瓶颈。
AISHPerf-智算运维智能体评测基准在设计之初,就深度融入了对国产化生态的考量,率先在同类基准中纳入了包括“天数、壁仞、沐曦、摩尔、昇腾”5种国产芯片集群运维的特定场景及典型问题测例。这些测例覆盖了国产GPU硬件故障、驱动适配、框架兼容、通信协议等典型运维痛点,首次为国产智算运维智能体建立起统一、可量化的评估标尺,填补了国产智算运维领域的标准空白。

展望未来,中国信通院将持续从标准研制、测试验证、生态培育等维度推动该基准的产业应用。结合无问芯穹海量真实运维数据积累与智算运维技术实战能力,不断丰富国产芯片相关评测用例,构建更加体系化、全栈化的国产智算运维评测体系。一方面,精准定位国产芯片集群运维的共性痛点与工程难点,牵引产业链上下游协同攻关、补齐短板、强化弱项;另一方面,以标准化评测驱动运维智能化能力升级,推动国产算力集群真正实现从“能用”到“好用、高效、稳产”的质变,为我国智算产业自主可控与高质量发展筑牢底层标准支撑。
趋势引领:AI基础设施向自主自治的“Token工厂”升级
运维智能体的深度应用,正在推动AI基础设施自身向“智能体”形态演进。未来的AI基础设施,将是能够自我感知、自我修复、自我迭代的自主自治系统。内置的运维智能体将以“管理者”的角色,根据训练与推理需求自动调度资源、优化系统,实现算法与基础设施的深度协同。去年以来,无问芯穹已在推理训练业务中率先部署运维智能体,使得工单平均处理时间缩短50%,关键故障处理效率提升约6倍,综合运维成本下降了约30%。在算力和电能不变的前提下,实现了Token产能的显著提升。
AISHPerf-智算运维智能体评测基准,为AI基础设施向更高阶的“自主自治”范式演进奠定了标准基础。通过统一的评测体系,为构建高效、稳定、自主的智能运维体系提供指导,加速运维智能体在AI基础设施中的规模化应用,实现Token产能的降本增效。让每一度电、每一张GPU卡,都能产出更多更高价值的Token,助力打造持续输出高质量、大规模、高效率AI生产力的“Token工厂”。
未来,中国信通院与无问芯穹、清华大学将深化产学研协同,持续迭代优化AISHPerf-智算运维智能体评测基准,不断扩充场景覆盖维度、丰富数据集规模、提升评测结果的可靠性与权威性,推动其成为行业公认的AI集群运维智能体能力评估公共基线,牵引全行业优质运维智能体的技术迭代与规模化落地。与此同时,各方也将持续拓展AI Infra全领域核心评测基准布局,构建起全栈的标准矩阵,为建设高效、绿色、自治的新一代AI基础设施筑牢标准底座,助力我国智算产业稳步迈向高质量发展新阶段。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:信通院牵头智算运维智能体评测基准落地,覆盖5款国产芯片要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在招聘这个行业中,数据录入的繁琐程度相信大家都有切身体会。每天需要从各类网页、社交平台、招聘站点中搜寻候选人信息,再手动一条条录入系统,既耗时费力又容易出错。今天要介绍的这款Kwal Chrome插件,正是为了彻底解决这一痛点而设计的。什么是 Kwal Chrome 扩展程序 插件?该插件的定位十分
网红经济正在进化——Twinning AI带来的玩法是:粉丝可以直接跟你的人工智能分身聊天,而你,每次互动都能收到真金白银。它集成了专业的声音克隆、文本和语音消息,以及数据分析能力,让粉丝互动变得既有趣又能变&现。 什么是Twinning AI? 简单来说,Twinning AI允许网红创建一个属于
在跨境电商和全球业务快速发展的今天,发票与财务管理工具的重要性日益凸显。AI技术的加入,让这些原本繁琐的流程实现了质的飞跃。Invoicemint 正是这样一款专注全球企业的智能发票与财务管理软件——它不只是一个简单的发票生成器,而是一套覆盖从开票、对账到税务合规、催款的全链路解决方案。 什么是In
想象一下,你随时都能找到一个倾听者——不带任何偏见,不会感到疲惫,而且完全匿名。这听起来像科幻小说里的情节,但现在已经成为现实。MyWhy 就是这样一款 AI 心理治疗应用,它将专业的情感支持装进你的口袋,让心理健康服务不再是奢侈品,而是像打开手机一样触手可及。什么是MyWhy?简单来说,MyWhy
- 日榜
- 周榜
- 月榜
热点快看
