面壁智能开源BitCPM-CANN：国产算力实现1.58比特训练，推理显存节省六分之五

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

面壁智能开源BitCPM-CANN：国产算力实现1.58比特训练，推理显存节省六分之五

热心网友时间：2026-05-26

转载

2026年，AI专用HBM内存价格暴涨超过165%，显存/HBM正成为模型扩展最昂贵、最稀缺的资源之一，模型公司的核心推理成本居高不下。

与此同时，高端AI芯片对华出口管制政策反复，让国产算力生态在面临高昂“过路费”与供应链安全风险的双重夹击下艰难求生。

这两件事叠加，共同指向一个核心问题：在硬件条件受限的现实下，国产模型厂商，该如何继续推进大模型的发展？

就在近期，一个来自国产阵营的答案正式亮相。在2026年5月23日的华&为昇腾开发者大会上，面壁智能联合清华大学、OpenBMB开源社区，发布了BitCPM-CANN——这是全球首个完全基于国产华&为昇腾平台训练并开源的三值（1.58-bit）大模型。该模型开源了从0.5B到8B的全尺寸版本，最直观的收益是，推理显存消耗节省了惊人的5/6。

这个模型究竟有何不同？它的出现意味着什么？更重要的是，基于国产芯片的训练路线，真的能走通吗？

一、1.58-bit三值权重如何跑通昇腾，省下6倍显存？

BitCPM-CANN的核心标签非常明确：全球首个完全基于国产算力平台（华&为昇腾）训练并开源的三值大模型。

那么，什么是“三值”？传统大模型的参数通常使用16位或8位浮点数表示，而BitCPM-CANN的每个参数只能取三个值：-1、0、+1。从信息论角度看，其每个参数平均仅需1.58 bit来存储，远低于常规精度。

为了节省显存，行业常见的做法是将精度从32位降至8位，这确实能带来4倍的显存节省，但往往伴随着一定的精度损失。BitCPM-CANN的思路则有所不同：其研发团队认为，压缩后的每一个比特，都应该承载尽可能多的知识信息，而不是被白白浪费。

因此，尽管BitCPM-CANN只有1.58 bit，但其信息密度实际上非常高，并非简单的“牺牲精度换取内存”。这一特性，在HBM紧缺、长上下文处理、MoE扩展等极度消耗显存的场景中，价值尤为凸显。

具体是如何实现的呢？其技术路径可以拆解为三个关键步骤：

第一步：将1.58-bit三值权重嵌入训练算子。

研发团队采用了STE（直通估计器）方案。在训练阶段保留全精度残差用于梯度更新，而在模型导出阶段则输出严格的三值权重。这一过程成功地将离散的三值权重真正嵌入了华&为昇腾的训练算子之中，实现了底层算子的适配。

第二步：通过完整QAT与后训练蒸馏守住模型能力。

团队在昇腾平台上完整部署了量化感知训练（QAT）与后训练蒸馏流程。这套组合拳确保了模型效果不出现显著下降，同时将训练吞吐量的损失成功控制在仅5%的水平，在效率与效果之间取得了良好平衡。

第三步：将低比特能力沉淀为可复用的训练基础设施。

更进一步，团队基于Megatron‑LM框架，嵌入了可插拔的QAT并行线性层，统一了检查点格式并支持32K长序列训练。这使得低比特训练能力不再是某个模型的“独门绝技”，而是成为了昇腾平台上可复用、可扩展的公共技术底座，为后续研发铺平了道路。

二、60B入终端：BitCPM-CANN撬动端侧AI落地

目前，BitCPM-CANN已经开源了从0.5B到8B的全尺寸版本。在1B、3B、8B这三个关键规格上，模型均保留了全精度版本95.7%以上的能力，其中3B版本更是达到了97.2%。即使在数学、代码等高精度敏感的任务上，3B版本的表现也已进入接近全精度的区间。

这些数据有力地证明，1.58-bit量化技术已经具备了面向真实模型族、真实评测集、真实训练栈的工程化说服力，不再是实验室里的概念演示。

端侧应用，是BitCPM-CANN价值最易被感知的领域，因为这里用户基数最大，应用场景也最广泛。

以8B模型为例，传统的BF16格式需要占用大约16GB显存，这个数字已经超过了绝大多数手机的运行内存容量，更不用说还要为其他应用预留空间。

而BitCPM-CANN将其压缩至2-3GB，使得在手机内存中流畅运行成为可能。这意味着手机厂商无需为了搭载大模型而盲目堆砌昂贵的超大内存，普通旗舰机型就能流畅运行8B级别的对话模型。

如果再向前展望，结合MoE（混合专家）架构——每次推理只激活部分参数——未来甚至有望将60B级别的“庞然大物”塞进笔记本电脑、平板，乃至高端手机之中。

硬件侧的进展也在同步推进。高通8850/8397等新一代端侧芯片，已经原生支持2-bit以下的低比特推理。芯片厂商早已铺好了跑道，只等待一个优秀的模型。BitCPM-CANN提供的1.58-bit权重，恰好与硬件能力实现了完美匹配。

更值得关注的是，BitCPM-CANN完全基于华&为昇腾芯片搭建，实现了全链路原生适配国产算力，与英伟达CUDA生态没有任何依赖关系。

这意味着其整个训练流程——从前向计算、反向传播，到量化算子的实现、分布式训练的调度——全部在昇腾平台上原生完成。中间不需要借助CUDA进行验证或中转，实现了真正的自主闭环。

这是昇腾平台上首个完整跑通1.58-bit训练，并进行了全精度对标评测的公开成果。而且模型规模直接推到了8B量级，并非仅作演示的几百兆小模型。

可以说，国产NPU在大规模三值量化训练这个高难度方向上，此前几乎没有公开的系统化成果。BitCPM-CANN的出现，算是填补了这块空白。

未来，昇腾生态内的低比特模型研发，都可以依托这套已经沉淀下来的底座继续前进。环境层、长序列支持、并行策略、融合算子、调试工具，一整套技术链路已然就绪。后续其他团队若想在昇腾上开展低比特训练，无需再从零开始“踩坑”。

一个由国产芯片、国产模型、国产训练框架共同构成的一体化自主产业链条，正在从蓝图一步步变为现实。

三、四年深耕，全栈自研：面壁智能如何掌握端侧AI话语权？

BitCPM-CANN并非凭空诞生，而是面壁智能在端侧AI路线上长期深耕后的自然产物。

针对端侧AI，面壁智能已经形成了自己的模型矩阵——“小钢炮”系列（MiniCPM）。顾名思义，这是一系列参数虽小、能力却强的模型。MiniCPM在GitHub上累计收获超过3万星标，Hugging Face开源总下载量超过3000万，成为中国端侧AI领域最受欢迎的开源模型家族之一。

然而，将时间拨回面壁智能成立之初，情况远非如此乐观。2022年，国产芯片在大模型训练上尚不成熟，国内AI基础设施与国外存在明显差距。也正因如此，绝大多数公司选择了最省事的路径——直接依赖成熟的英伟达CUDA生态。

面壁智能却做出了一个截然不同的决定：自己编写框架，自己搭建底座。这意味着从一开始就没有绑定CUDA，其工程师必须亲手解决所有底层问题，例如显存如何高效分配、通信如何优化、算子如何融合。

更重要的是，这个艰难的起点引发了一连串深厚的技术积累。此后，他们自研了一套训练框架，命名为BM-Train（Big Model Train）。

从稀疏架构InfLLM，到低比特量化方法BitCPM，再到推理框架CPM.cu，面壁智能逐步构建起覆盖从训练到推理的全栈端侧技术体系。正是这些深厚积累，使得团队能够将验证成熟的1.58-bit训练方法，完整地迁移到昇腾平台上，做出BitCPM-CANN，实现从底层算子到训练框架的全链路原生跑通。

更难得的是，他们在国产芯片生态上的积累并不仅限于昇腾。此前，面壁智能曾参与协助华&为昇腾、鲲鹏，以及寒武纪、天数智芯等多家国产芯片构建和优化软件栈。这些经历让面壁智能建立起了对国产芯片生态的独特认知：既清楚“坑”在哪里，也知道如何“绕过去”。

端侧大模型的性能充分释放，离不开模型厂商与芯片厂商的深度协同与共同投入。在这个赛道上，面壁智能追求的从来不只是参与，而是成为关键的推动者与生态构建者。

结语：硬件受限，模型效率先行

过去两年，行业将“规模定律”（Scaling Law）奉为圭臬，算力几乎成了唯一的竞争门槛。

而BitCPM-CANN代表了一条不同的技术路线：在硬件条件给定的前提下，将模型的信息密度推向物理极限。更重要的是，它用事实证明了这条高难度路线可以在国产算力平台上完整跑通。

回到文章开头那个尖锐的问题：“在硬件受限的情况下，国产模型厂商，该怎么继续做大模型？”

面壁智能通过BitCPM-CANN给出了自己的答案：当硬件的追赶需要时间，模型的效率可以率先突围。这或许是在当前复杂产业环境下，一条更为务实和可持续的发展路径。

来源:https://www.zhidx.com/p/560172.html

上一篇： AI全栈开发实战指南：模块化思维与前后端项目落地

下一篇： Claude与Cursor通用技能编写指南与资源获取

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

异环1.1版本前瞻直播兑换码大全与领取指南

异环1.1前瞻直播兑换码领取攻略与最新大全

方舟生存进化2上线时间确定公测日期正式公布

异环1.1前瞻直播兑换码领取与使用指南

异环1.1版本前瞻直播内容汇总与更新详解

烟雨江湖最新兑换码大全免费福利领取攻略

熊猫村官网下载地址在哪最新官方安装包获取方法

极乐谷镇派前置任务全流程详解与速通技巧

方舟进化2官网下载地址安卓iOS正版安装包获取

彩色水杯怎么玩？超全玩法教程与创意指南

漫蛙漫画防走失网页链接

明末渊虚之羽望山村女眷支线任务攻略

原神哥伦比娅配队思路与阵容搭配推荐

火焰审判手游职业解析指南与选择推荐

天羽传奇职业选择指南与全职业介绍

白金撒花成就解锁攻略与获取方法详解

中世纪建筑结构稳定性解析与建造技巧

童话师墙后装饰摆放技巧与布置方法

造梦西游4手游邮件系统使用与查看方法

三角洲行动怦然心动效果调整方法详解

漫蛙漫画防走失网页链接

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

浦泽直树经典漫画比利蝙蝠美版今夏正式发售发布于 2026-05-26

2026年6月PS Plus会免游戏阵容正式揭晓发布于 2026-05-26

坦克世界HEAT弹机制解析舍弃历史还原专注对战平衡发布于 2026-05-26

索拉查盆地任务全流程攻略与完成指南发布于 2026-05-26

红警OL资源保护攻略降低被掠夺风险的有效方法发布于 2026-05-26

红警OL手游后勤副官怎么选委任搭配推荐攻略发布于 2026-05-26

红警OL手游S级英雄娜迦技能与实战全解析发布于 2026-05-26

造梦西游2五毒兽获取方法及合成材料清单发布于 2026-05-26

毒液突击队难以捉摸成就解锁方法详解发布于 2026-05-26

暗黑破坏神4S11圣骑士荆棘主宰BD搭配攻略发布于 2026-05-26

三角洲行动M7战斗步枪改装指南配件选择与实战配置方案发布于 2026-05-26

复古传神铭文搭配推荐与最强组合攻略发布于 2026-05-26

刺客信条黑旗重制版片头视频曝光金属质感标志亮相发布于 2026-05-26

金铲铲之战S16锤石解锁条件与获取方法详解发布于 2026-05-26

2026GG全能王挑战赛开启五大经典IP巅峰对决阵容由你决定发布于 2026-05-26

洛克王国稀有精灵捕捉技巧与详细方法指南发布于 2026-05-26

Windows 11 任务管理器查看 NPU 频率与 AI 硬件占用率教程发布于 2026-05-25

Linux系统修改默认网关命令与永久生效配置教程发布于 2026-05-25

麒麟系统开机自启动脚本设置方法详解发布于 2026-05-25

麒麟系统安装IntelliJ IDEA插件扩展开发功能发布于 2026-05-25

Windows 11 RP预览版25145发布及KB5089573更新日志详解发布于 2026-05-25

Windows 11 26H1预览版28000.2173更新日志KB5089570详解发布于 2026-05-25

Win11预览版26300.8493更新本地文件搜索排序优先发布于 2026-05-25

Win11预览版8521修复音频与通知问题发布于 2026-05-25

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

面壁智能开源BitCPM-CANN：国产算力实现1.58比特训练，推理显存节省六分之五

一、1.58-bit三值权重如何跑通昇腾，省下6倍显存？

二、60B入终端：BitCPM-CANN撬动端侧AI落地

三、四年深耕，全栈自研：面壁智能如何掌握端侧AI话语权？

结语：硬件受限，模型效率先行

千问模型如何优化智能推荐系统的内容理解模块

Claude与Cursor通用技能编写指南与资源获取

面壁智能开源BitCPM-CANN：国产算力实现1.58比特训练，推理显存节省六分之五

AI全栈开发实战指南：模块化思维与前后端项目落地

Claude代码操作必知的五个高效技巧