AI时代Chiplet设计中不可或缺的可观测性层
随着高性能系统日益复杂,芯片内部的可观测性——即能否清晰洞察芯片内部运行状态——已成为业界无法回避的关键议题。为此,《半导体工程》杂志组织了一场圆桌讨论,邀请Arteris、Axiomise、Baya Systems、Cadence、Keysight EDA、Movellus、Siemens EDA
随着高性能系统日益复杂,芯片内部的可观测性——即能否清晰洞察芯片内部运行状态——已成为业界无法回避的关键议题。为此,《半导体工程》杂志组织了一场圆桌讨论,邀请Arteris、Axiomise、Baya Systems、Cadence、Keysight EDA、Movellus、Siemens EDA、Synopsys、Vinci等多家企业的技术专家,共同探讨片上数据分析与系统韧性的最新进展。以下为本次讨论的核心摘要。
人工智能在可观测性数据中的应用现状
人工智能已全面融入芯片设计流程,覆盖设计验证、规则检查及仿真加速等环节。例如,在数据中心中,借助多种监控器采集的海量数据,AI模型能够精准预测硅片失效时间,甚至精确到具体某一天。
然而,在数据采集阶段,业界态度较为谨慎——普遍倾向于保留传统方式,以确保捕获过程的确定性。毕竟,关键时期若智能监控器“擅自决定”放弃抓取错误信息,后果将十分严重。
在分析阶段,AI的价值得以充分释放:包括高维遥测数据的异常检测、现场故障的聚类分析,以及从测试数据中识别问题设备的早期细微规律,均为其擅长领域。
目前,执行阶段仍以基于规则的方式为主。尽管AI辅助控制器正逐步普及,但必须在明确的安全边界内运行,不可越界。
与此同时,小型语言模型(TinyML)正悄然嵌入芯片内部,在极小硬件面积上完成片上数据分析。不过,相关公开资料仍有限,诸多细节尚待披露。
放眼未来,智能体AI有望接管数据中心基础设施的统一编排与管理。随着数据量爆炸式增长,人工介入实时决策将愈发不现实,自动化管理成为必然选择。
Chiplet架构下的可观测性扩展挑战
当系统从单芯片向多裸片与Chiplet架构演进时,可观测性的核心挑战在于:如何跨裸片边界,获取系统行为的整体、一致性视图。
扩展性最佳的方案是将可观测性与通信互联架构对齐,沿数据实际传输路径进行观测。AI虽能助力——从大规模系统级遥测数据中挖掘规律、指导优化——但无法替代底层架构设计。若可见性不一致、未与互联架构对齐,AI再强也无从下手。
可编程性与软件可访问性同样至关重要。在传感器附近进行数据处理与压缩,对于控制数据移动开销、实现系统规模扩展,是关键所在。
标准化亦是热议焦点。超大规模数据中心运营商希望至少在遥测层面实现标准化。随着多家供应商的多种IP方案集成于同一大型系统,统一的数据格式标准已成为刚需。一致的遥测Schema与访问框架,不仅能帮助集成商跨裸片、封装及互联域定位故障,还能有效保护敏感运营数据。
可观测性机制对系统性能的影响
设计得当的情况下,可观测性对系统性能的影响可降至极低。业界公认的最佳实践包括:使观测路径与主数据路径保持独立,采用过滤机制限制采集范围,避免不必要的侵入式模式,以及在可观测性基础设施与功能运算之间实现彻底隔离。
监控机制通常采用分层设计:一层为始终运行的低开销层,负责健康监控数据与聚合计数器;另一层为丰富的调试追踪层,仅在特定诊断场景下按需启用。
形式化验证在此也能发挥重要作用——通过形式化证明,可确认新增的可观测性逻辑不会破坏系统的关键属性(如无死锁、安全性等),并量化评估性能开销与可诊断性之间的权衡。
必须承认,监控基础设施确实会带来一定额外开销。但其价值往往远超成本。试想,在超大规模数据中心中,训练集群因单个节点故障而中断,损失可能高达数千美元。而精准遥测恰恰能帮助避免此类灾难性故障。
可观测性的未来发展方向
与会专家总结了当前可观测性机制的主要局限,并指出以下值得关注的方向:
属性感知遥测:当前监控器主要暴露温度、电压、计数器等底层数据。未来方向应直接从形式化属性出发推导监控指标,使遥测数据更具可操作性。
硅片遥测与形式化模型的双向联动:将真实流量规律、边界场景序列及观测到的故障模式反馈至形式化验证环境,同时让形式化工具反向揭示当前监控体系的盲区。这将形成真正的良性循环。
无声数据损坏(SDC)检测:此问题已无法回避。必须从设计之初就将SDC早期症状检测纳入可观测性框架,而非事后补救。
封装级可见性:在Chiplet生态中,部分组件单独看电气特性完全正常,但可能在互联层面出现故障,根因难以定位——例如凸块或基板问题。提升跨裸片、封装及互联域的故障隔离能力,是打通真正开放Chiplet市场的关键。
安全与隐私保护:监控数据——包括温度、电压乃至事务级数据——在汽车与数据中心等领域高度敏感。这需要建立跨厂商的一致性保护机制,任何一方都不能掉链子。
Q&A
Q1:为何在Chiplet架构下,芯片可观测性变得更为复杂?
A:在Chiplet多裸片架构中,系统行为跨越多个裸片边界,传统单芯片监控方式无法提供整体视图。各裸片可能来自不同供应商,遥测格式不统一,故障定位时难以判断问题究竟出在裸片本身、封装基板还是互联层面。加之数据量随系统规模指数级增长,人工分析已彻底无解。因此,必须在架构层面设计与互联Fabric对齐的可观测性方案,并配以标准化遥测Schema,方能实现跨裸片的一致性监控。
Q2:AI在芯片可观测性中能发挥哪些作用?目前存在哪些局限?
A:当前AI主要应用于遥测数据的分析阶段,包括异常检测、故障聚类、预测性维护(甚至可预测硅片失效日期)以及性能优化建议。但AI无法解决数据采集与基础设施标准化问题——若底层缺乏一致、结构化的遥测数据,AI连可靠输入都无法获得。此外,执行层面目前仍以基于规则的方式为主,AI辅助控制器虽在逐步普及,但必须在明确安全边界内运行。
Q3:开放Chiplet市场面临哪些主要障碍?可观测性如何助力解决?
A:开放Chiplet市场的主要障碍之一,是多供应商环境下的故障责任归属问题——系统出问题时,各厂商往往难以明确判断故障根因究竟在哪个裸片、封装还是互联环节。提升封装级可见性、建立标准化遥测Schema与访问框架,可帮助集成商更早隔离故障来源,减少相互推诿,从而降低系统集成风险,推动真正开放的Chiplet商业生态落地。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:AI时代Chiplet设计中不可或缺的可观测性层要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点你有没有想过,手动回复每条帖子评论、再挨个发私信,到底要吃掉多少时间?更别提那些潜在客户,往往就在你回复不及时的时候溜走了。今天聊的这款工具,恰好就瞄准了这个痛点——它帮你自动搞定评论回复,还能顺便给评论者发去带有引流链接的私信,一举两得,省事又提效。 什么是 Client Responder ai
在B2B社交营销领域,工具层出不穷,但真正能打通“监控-外展-内容”全链路的并不多。最近注意到一款叫Devi AI的产品,定位很精准——它把AI能力揉进了社交媒体潜在客户的发现、触达和内容运营里。简单来说,它能帮你盯住Facebook群组、LinkedIn、Twitter和Reddit中的关键词,然
当许多运营者还在手动抓取新闻、费力拼凑社交媒体文案时,一款智能工具已经能够将这些繁琐流程一站式解决。接下来要介绍的,正是一款专注于自动化社交媒体内容创作与定时发布的AI助手。 什么是PosterGPT? PosterGPT是一款基于人工智能的社交媒体管理工具,其核心思路非常明确:让机器自动从最新新闻
近日,埃隆·马斯克公布了一段关于Cortex的简短视频,首次让外界近距离了解到这座价值10亿美元的AI GPU集群。作为X平台专属的AI训练超级计算机,Cortex目前正在特斯拉位于得克萨斯州的Giga工厂内加速建设中。紧接着,马斯克在自己旗下的社交平台上正式宣布:全新的100k H100训练集群—
- 日榜
- 周榜
- 月榜
热点快看
