AI时代Chiplet设计中不可或缺的可观测性层

AI热点日报时间：2026-07-02

热点解读

随着高性能系统日益复杂，芯片内部的可观测性——即能否清晰洞察芯片内部运行状态——已成为业界无法回避的关键议题。为此，《半导体工程》杂志组织了一场圆桌讨论，邀请Arteris、Axiomise、Baya Systems、Cadence、Keysight EDA、Movellus、Siemens EDA

随着高性能系统日益复杂，芯片内部的可观测性——即能否清晰洞察芯片内部运行状态——已成为业界无法回避的关键议题。为此，《半导体工程》杂志组织了一场圆桌讨论，邀请Arteris、Axiomise、Baya Systems、Cadence、Keysight EDA、Movellus、Siemens EDA、Synopsys、Vinci等多家企业的技术专家，共同探讨片上数据分析与系统韧性的最新进展。以下为本次讨论的核心摘要。

人工智能在可观测性数据中的应用现状

人工智能已全面融入芯片设计流程，覆盖设计验证、规则检查及仿真加速等环节。例如，在数据中心中，借助多种监控器采集的海量数据，AI模型能够精准预测硅片失效时间，甚至精确到具体某一天。

然而，在数据采集阶段，业界态度较为谨慎——普遍倾向于保留传统方式，以确保捕获过程的确定性。毕竟，关键时期若智能监控器“擅自决定”放弃抓取错误信息，后果将十分严重。

在分析阶段，AI的价值得以充分释放：包括高维遥测数据的异常检测、现场故障的聚类分析，以及从测试数据中识别问题设备的早期细微规律，均为其擅长领域。

目前，执行阶段仍以基于规则的方式为主。尽管AI辅助控制器正逐步普及，但必须在明确的安全边界内运行，不可越界。

与此同时，小型语言模型（TinyML）正悄然嵌入芯片内部，在极小硬件面积上完成片上数据分析。不过，相关公开资料仍有限，诸多细节尚待披露。

放眼未来，智能体AI有望接管数据中心基础设施的统一编排与管理。随着数据量爆炸式增长，人工介入实时决策将愈发不现实，自动化管理成为必然选择。

Chiplet架构下的可观测性扩展挑战

当系统从单芯片向多裸片与Chiplet架构演进时，可观测性的核心挑战在于：如何跨裸片边界，获取系统行为的整体、一致性视图。

扩展性最佳的方案是将可观测性与通信互联架构对齐，沿数据实际传输路径进行观测。AI虽能助力——从大规模系统级遥测数据中挖掘规律、指导优化——但无法替代底层架构设计。若可见性不一致、未与互联架构对齐，AI再强也无从下手。

可编程性与软件可访问性同样至关重要。在传感器附近进行数据处理与压缩，对于控制数据移动开销、实现系统规模扩展，是关键所在。

标准化亦是热议焦点。超大规模数据中心运营商希望至少在遥测层面实现标准化。随着多家供应商的多种IP方案集成于同一大型系统，统一的数据格式标准已成为刚需。一致的遥测Schema与访问框架，不仅能帮助集成商跨裸片、封装及互联域定位故障，还能有效保护敏感运营数据。

可观测性机制对系统性能的影响

设计得当的情况下，可观测性对系统性能的影响可降至极低。业界公认的最佳实践包括：使观测路径与主数据路径保持独立，采用过滤机制限制采集范围，避免不必要的侵入式模式，以及在可观测性基础设施与功能运算之间实现彻底隔离。

监控机制通常采用分层设计：一层为始终运行的低开销层，负责健康监控数据与聚合计数器；另一层为丰富的调试追踪层，仅在特定诊断场景下按需启用。

形式化验证在此也能发挥重要作用——通过形式化证明，可确认新增的可观测性逻辑不会破坏系统的关键属性（如无死锁、安全性等），并量化评估性能开销与可诊断性之间的权衡。

必须承认，监控基础设施确实会带来一定额外开销。但其价值往往远超成本。试想，在超大规模数据中心中，训练集群因单个节点故障而中断，损失可能高达数千美元。而精准遥测恰恰能帮助避免此类灾难性故障。

可观测性的未来发展方向

与会专家总结了当前可观测性机制的主要局限，并指出以下值得关注的方向：

属性感知遥测：当前监控器主要暴露温度、电压、计数器等底层数据。未来方向应直接从形式化属性出发推导监控指标，使遥测数据更具可操作性。

硅片遥测与形式化模型的双向联动：将真实流量规律、边界场景序列及观测到的故障模式反馈至形式化验证环境，同时让形式化工具反向揭示当前监控体系的盲区。这将形成真正的良性循环。

无声数据损坏（SDC）检测：此问题已无法回避。必须从设计之初就将SDC早期症状检测纳入可观测性框架，而非事后补救。

封装级可见性：在Chiplet生态中，部分组件单独看电气特性完全正常，但可能在互联层面出现故障，根因难以定位——例如凸块或基板问题。提升跨裸片、封装及互联域的故障隔离能力，是打通真正开放Chiplet市场的关键。

安全与隐私保护：监控数据——包括温度、电压乃至事务级数据——在汽车与数据中心等领域高度敏感。这需要建立跨厂商的一致性保护机制，任何一方都不能掉链子。

Q&A

Q1：为何在Chiplet架构下，芯片可观测性变得更为复杂？

A：在Chiplet多裸片架构中，系统行为跨越多个裸片边界，传统单芯片监控方式无法提供整体视图。各裸片可能来自不同供应商，遥测格式不统一，故障定位时难以判断问题究竟出在裸片本身、封装基板还是互联层面。加之数据量随系统规模指数级增长，人工分析已彻底无解。因此，必须在架构层面设计与互联Fabric对齐的可观测性方案，并配以标准化遥测Schema，方能实现跨裸片的一致性监控。

Q2：AI在芯片可观测性中能发挥哪些作用？目前存在哪些局限？

A：当前AI主要应用于遥测数据的分析阶段，包括异常检测、故障聚类、预测性维护（甚至可预测硅片失效日期）以及性能优化建议。但AI无法解决数据采集与基础设施标准化问题——若底层缺乏一致、结构化的遥测数据，AI连可靠输入都无法获得。此外，执行层面目前仍以基于规则的方式为主，AI辅助控制器虽在逐步普及，但必须在明确安全边界内运行。

Q3：开放Chiplet市场面临哪些主要障碍？可观测性如何助力解决？

A：开放Chiplet市场的主要障碍之一，是多供应商环境下的故障责任归属问题——系统出问题时，各厂商往往难以明确判断故障根因究竟在哪个裸片、封装还是互联环节。提升封装级可见性、建立标准化遥测Schema与访问框架，可帮助集成商更早隔离故障来源，减少相互推诿，从而降低系统集成风险，推动真正开放的Chiplet商业生态落地。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：AI时代Chiplet设计中不可或缺的可观测性层要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://ai.zhiding.cn/2026/0701/3192190.shtml

AI时代

上一篇：Wonder与Zipline合作无人机送餐 2027年德州上线

下一篇：Meta布局AI云业务出售算力挑战三大云巨头

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。