OpenAI开源新模型:稀疏性方法革新,99.9%权重为0
闻乐·发自凹非寺
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
量子位 | 微信公众号 QbitAI
破解AI胡言乱语的关键,竟然是为大模型切断99.9%的连接线?
OpenAI悄然开源新模型,仅有0.4B参数,且99.9%的权重为零。

这正是Circuit Sparsity技术的开源实现。

这是一种通过人为约束模型内部连接的稀疏性,让模型计算过程可拆解、可理解的大语言模型变体,本质上是为了解决传统稠密Transformer的黑箱问题,让内部的计算电路能被人类清晰解读,知道AI是如何做决策的,避免轻易相信AI的胡话。

更有人直言这种“极致稀疏+功能解耦”的思路可能会让当下热门的MoE走上末路。

那么,当Transformer的权重被训练到近乎全0,会发生什么呢?
放弃粗糙近似,追求原生稀疏
先说说为啥这个模型的思考过程能像电路图一样好懂。
咱们平时用的传统大模型,内部神经元连接得密密麻麻,权重矩阵几乎全为非零值,信息传递呈现出高度叠加状态,就像一团扯不开的乱线,没人能说清它是怎么得出某个结论的。
而Circuit Sparsity模型反其道而行之,基于GPT-2风格的Transformer架构训练时,通过严格约束让权重的L0范数极小,直接把99.9%的无效连接砍断,只留下千分之一的有效通路。

这些留存的非零权重连接就像电路图里的导线,信息只能沿着固定路径传递;同时,模型还会通过均值屏蔽剪枝方法,为每个任务拆出专属的最小电路。
比如处理Python引号闭合任务时,仅需2个MLP神经元和1个注意力头就能构成核心电路,包含专门的引号检测器、类型分类器等功能模块,就像电路图里的电阻、电容,各自管各自的事。

实验数据显示,在预训练损失相同的前提下,稀疏模型的任务专属电路规模比稠密模型小16倍,且具备严格的必要性与充分性——保留这些模块就能完成任务,删掉任一节点则直接失效。
这样,每一步的逻辑都能精准追踪。
那这时候就不得不提当下主流的MoE模型了。
MoE的核心思路是通过门控网络将模型拆分为多个专家子网络,每个专家负责处理一部分任务,靠路由器分配任务来提升效率,本质上是用拆分专家这种粗糙的方式近似稀疏性,目的只是为了适配硬件的稠密矩阵计算需求。
但这种架构存在致命缺陷:
一是会割裂模型的特征流形,导致专家同质化严重、知识冗余等问题,不同专家间的信息协同依赖复杂的负载均衡损失函数调控,稳定性堪忧;
二是专家功能边界模糊,无法像Circuit Sparsity模型那样实现微观机制的精准拆解。
反观Circuit Sparsity,追求的是模型原生的稀疏性,通过把特征投射到超大维度,再严格限制有效激活的节点数量,从设计上就让每个特征变得单义、正交,从根源上解决了传统模型一个概念分散在多个节点的叠加问题,不用靠路由器这种 hack 手段也能避免信息干扰。

不过Circuit Sparsity目前也有明显的短板,最突出的就是算力成本极高。
训练和推理的计算量是传统稠密模型的100-1000倍,暂时还达不到顶尖大模型的能力;
而MoE模型在算力效率和性能平衡上已经很成熟,短期内依然会是工业界的主流选择。
并且,这项工作也只是AI可解释性探索的早期一步,未来团队计划将技术扩展到更大的模型,解锁更复杂的推理电路。
目前,团队发现有四种克服稀疏模型训练效率低下的方法:
一个是直接从现有的密集模型中提取稀疏电路,这样直接复用基础框架,不额外训练稀疏模型,能大幅降低成本;
另一种途径则不放弃从零训练可解释稀疏模型的这种思路,但针对训练慢、成本高的短板,从技术层面优化训练机制,造出原生可解释、且能高效落地的模型。
那就期待研究人员后续用更成熟的工具或技术,逐步揭开大模型的黑箱面纱了。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
股东施压苹果:要求其公开 AI“黑匣子”,提高隐私保护透明度
股东施压苹果:要求其公开AI“黑匣子”,提高隐私保护透明度 一月份的这最后几天,科技圈可没闲着。一纸股东提案被正式披露,直接把压力给到了苹果公司。数位股东联手施压,核心诉求很明确:要求这家科技巨头披露更多关于其人工智能活动的细节,尤其是要提高其在训练和推理“Apple智能”(Apple Intell
XCole : 集 ai 绘图、AI 文字、AI 翻译等为一体的综合性 AI 创作平台
需求人群 无论是想挥洒创意的画手、需要灵感辅助的写作者,还是追求高效沟通的翻译者,或是正在攻克技术难题的开发者,都能在XCole这个平台上找到趁手的工具。它集成了创作、绘图、文字对话、翻译和代码生成等一系列AI能力,几乎覆盖了数字内容生产的全链路。 产品特色 其核心特色可以概括为四个支柱能力,共同支
AI 生成内容泛滥,美国最大作家组织推出“人类创作”书籍认证
AI生成内容泛滥,美国最大作家组织推出“人类创作”书籍认证 最近出版界有个新动向:为了应对AI生成内容的冲击,美国最大的作家组织之一——“作家协会(The Authors Guild)”,推出了一项颇具标志性的举措。简单来说,作家现在可以为自己的作品申请一个“人类创作”认证,明确告诉读者:这本书,是
ChatWeb3 : 使web3生态系统对每个人都更加可访问
需求人群 如果你正在探索去中心化世界,那么ChatWeb3很可能是你的得力助手。无论是进行DeFi交易、开发下一代web3应用,还是畅游NFT市场,这个工具都能为你提供更精准的信息和更流畅的操作体验。 使用场景 场景一:DeFi交易。 面对瞬息万变的去中心化金融市场,如何捕捉高收益机会?ChatWe
不用开口:谷歌 AI 帮你致电商家,价格、预约一键搞定
不用开口:谷歌AI帮你致电商家,价格、预约一键搞定 1月31日消息,谷歌在搜索创新这件事上,又往前迈了一步。就在昨天(1月30日),谷歌通过官方渠道宣布,将在其Search Labs中推出一项名为“Ask for Me”的实验性新功能。简单来说,它能让你身边的人工智能助手代替你本人,去给商家打电话,
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

