思元370芯片MLU370-X8智能加速卡产品手册深度解析

AI热点日报时间：2026-05-27

热点解读

寒武纪思元370芯片采用7nm工艺与Chiplet技术，集成390亿晶体管，算力达256TOPS。其MLU370-X8加速卡搭载双芯，支持LPDDR5内存与MLU-Link多芯互联，提供高效训练与推理性能。实测显示，该卡在250W功耗下性能媲美主流350WGPU，多卡扩展效率突出。

在AI芯片这一前沿科技领域，每一次制程与架构的突破都牵动着业界的目光。寒武纪推出的思元370，作为其首款采用先进Chiplet（芯粒）封装技术的AI处理器，标志着一次关键的技术跨越。该芯片基于领先的7纳米制程工艺，集成了惊人的390亿个晶体管，其最大计算性能达到256TOPS(INT8)，性能表现是前代思元270的两倍。这一飞跃得益于寒武纪第三代智能芯片架构MLUarch03的赋能，使得思元370在实际应用中的效能表现尤为突出。

除了核心算力，内存带宽同样是决定AI芯片性能上限的关键因素。思元370是国内率先公开支持LPDDR5高速内存的云端AI芯片，其内存带宽提升至上一代产品的三倍，访存能效更是优于GDDR6方案达1.5倍，从而在处理大规模数据时实现了更高的能效比。为应对复杂的分布式AI训练与推理需求，芯片集成了MLU-Link™多芯互联技术，保障了多颗思元370芯片间能够实现高效协同与算力扩展。在软件生态层面，全新升级的寒武纪基础软件平台引入了推理加速引擎MagicMind，实现了训练与推理流程的一体化整合，这大幅提升了AI模型的开发与部署效率，同时显著降低了用户的学习成本与总体拥有成本。

寒武纪® AIDC® MLU370®-X8智能加速卡训推一体人工智能加速卡

将思元370芯片的强劲性能转化为即插即用的算力解决方案，便是MLU370-X8智能加速卡。这款加速卡采用双芯思元370设计，是一款双槽位、热设计功耗为250W的全尺寸AI加速卡。它提供高达24TFLPOS(FP32)的训练算力与256TOPS (INT8)的推理算力，并全面支持FP16、BF16等多种主流训练精度，为复杂人工智能模型的训练与云端部署提供了可靠的硬件基石。

得益于双芯集成设计，MLU370-X8拥有翻倍的内存容量与编解码资源。其核心亮点在于搭载的MLU-Link多芯互联技术，使得单张加速卡可获得高达200GB/s的双向通讯吞吐性能，这是PCIe 4.0接口带宽的3.1倍。这种卓越的高速互联能力，完美支持单台服务器内八卡的高密度部署，能够高效执行多芯片、多卡的协同训练与大规模分布式推理任务，极大提升了数据中心集群的整体算力利用率。

作为一款全面升级的数据中心级训推一体AI加速卡，MLU370-X8基于思元370芯片打造，采用标准的PCIe 4.0 X16接口，全高全长双槽位（FHFL-Dual-Slot）的标准设计使其能够轻松兼容业界最新的CPU平台，快速集成于各类先进的人工智能服务器中。其250W的功耗设计，为计算机视觉、自然语言处理、智能语音等多样化的AI应用场景提供了强大且高效的算力支撑。

产品规格

板卡型号	MLU370-X8
计算架构	Camicon MLUarch03
制程工艺	7nm
计算精度支持	FP32、FP16、BF16、INT16、INT8、INT4
峰值性能	256 TOPS (INT8)
128 TOPS (INT16)
96 TFLOPS (FP16)
96 TFLOPS (BF16)
24 TFLOPS (FP32)
内存类型	LPDDR5
内存容量	48GB
内存带宽	614.4 GB/s
视频编解码	最高可支持至8K；264路HEVC全高清视频解码；48路HEVC全高清视频编码；
图片编解码	图片编解码最高分辨率支持16384x16384；8000 Frames/s 全高清图片解码；6000 Frames/s 全高清图片编码；
系统接口	x16 PCIe Gen4
MLU-Link™接口	4 ports, 16 Lanes, 50 Gbps
MLU-Link™带宽	聚合带宽200GB/s Bi-direction
形态	全高全长双槽位
最大热功耗	250W
散热设计	被动

在实际的AI工作负载中，真实的性能表现才是衡量硬件的最终标准。根据寒武纪基础软件平台SDK的官方实测数据，在多个主流人工智能模型上，功耗仅为250W的MLU370-X8单卡性能，已能够与市面上主流的350W功耗GPU产品相抗衡。而在更能体现技术深度的多卡并行加速场景中，MLU370-X8凭借其MLU-Link多芯互联技术与寒武纪CNCL通讯库的深度优化，在八卡配置下展现出了更优异的并行加速比与扩展效率，这意味着其能够更有效地发挥大规模AI计算集群的算力潜能。

性能对比

测试环境
250W MLU370-X8：NF5468M5/Intel Xeon Gold 5218 CPU @ 2.30GHz/MLU370 SDK 1.2.0
350W GPU： Supermicro AS -4124GS-TNR/Intel Xeon Gold 6130 CPU @ 2.10GHz/Cuda11.2

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：思元370芯片MLU370-X8智能加速卡产品手册深度解析要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://m.elecfans.com/article/6566184.html

寒武纪

上一篇：Claude破解80年数学难题断网解题推翻Erdős猜想

下一篇：腾讯混元AI Infra开源核心技术推理吞吐性能提升30%

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周面壁智能CTO谈端侧AI：从打字机到大模型的进化突围 02 / 本周印度IT巨头HCL Tech投350亿卢比建50MW AI数据中心 03 / 本周小米具身智能机器人新工站双侧螺母上件成功率达98% 04 / 本周DeepSeek梁文锋身价360亿美元成AI新首富 05 / 本周DeepSeek获74亿美元融资，梁文锋身家涨至360亿

01 / 本月面壁智能CTO谈端侧AI：从打字机到大模型的进化突围 02 / 本月印度IT巨头HCL Tech投350亿卢比建50MW AI数据中心 03 / 本月小米具身智能机器人新工站双侧螺母上件成功率达98% 04 / 本月DeepSeek梁文锋身价360亿美元成AI新首富 05 / 本月DeepSeek获74亿美元融资，梁文锋身家涨至360亿

热点快看

07-14 19:48面壁智能CTO谈端侧AI：从打字机到大模型的进化突围 07-14 19:48印度IT巨头HCL Tech投350亿卢比建50MW AI数据中心 07-14 19:48小米具身智能机器人新工站双侧螺母上件成功率达98% 07-14 19:48DeepSeek梁文锋身价360亿美元成AI新首富 07-14 19:48DeepSeek获74亿美元融资，梁文锋身家涨至360亿

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别