当前位置: 首页
AI
OpenAI新研究:稀疏模型破解大模型黑箱,Ilya团队揭秘

OpenAI新研究:稀疏模型破解大模型黑箱,Ilya团队揭秘

热心网友 时间:2025-11-17
转载

在人工智能领域,大模型的可解释性一直是研究者们重点关注的问题。近日,OpenAI发布了一项关于训练小模型的研究成果,旨在让模型的内部机制更易于人类理解,为提升模型可解释性提供了全新的视角。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

OpenAI指出,当前支撑ChatGPT的语言模型结构复杂,其具体工作原理尚未被完全掌握。这项研究正是为了缩小这一认知差距。研究人员提出的核心思路是训练稀疏模型,这类模型神经元连接数量较少,但神经元总量庞大,通过简化神经网络结构,使其决策过程更易于解读。

研究人员认为,尽管推理模型通过思维链展现的可解释性在短期内具有一定价值,能够捕捉到模型的“欺骗”等行为,但完全依赖这一特性并不可靠,且随时间推移可能失效。要更深入地理解模型机制,需要对模型计算过程进行完整的逆向工程。然而,在复杂密集网络中,每个神经元与其他数千个神经元相连,且执行不同功能,理解难度极大。因此,训练拥有众多神经元但每个神经元连接较少的模型成为研究的关键突破点。

基于这一思路,研究人员以现代语言模型基础架构(类似GPT-2)为基底,仅做一处关键改动——强制将模型大部分权重设置为0,从而训练出具备稀疏特性的小规模模型。

获得稀疏模型后,研究人员着手找出模型在各任务中的“回路”。这里的“回路”指模型精准完成特定任务的最小计算单元,由节点和边组成,其规模通过节点和边数量衡量。论文将回路边数几何平均值作为可解释性量化指标。为评估模型可解释性,研究人员设计了一系列简单算法任务,并将每个模型精简到能完成任务的最小回路。

以一项Python任务为例,任务要求“hello”必须以单引号结尾,“hello”必须以双引号结尾,模型需根据字符串开头引号类型预测结尾引号并自动补全。最终得到的回路仅使用5个残差通道、第0层的两个MLP神经元,以及第10层的一个注意力查询键通道和一个值通道。其流程为:先将单、双引号分别编码到不同残差通道;再用MLP层将编码结果转换为两个通道,一个检测任意引号,一个区分单、双引号;接着通过注意力机制忽略中间token,找到前一个引号并将其类型复制到最后一个token;最后预测匹配的结尾引号。

论文还对变量绑定等更复杂行为进行研究,这些行为的回路虽难以完全解释,但仍能得出相对简单的部分解释以预测模型行为。研究人员还发现,训练更大、更稀疏的模型,能生成功能更强大、回路更简洁的模型,这表明该方法有望用于理解更复杂行为。

不过,研究人员也强调,这项工作尚处早期阶段。稀疏模型比前沿模型小很多,且计算过程仍有不少“黑盒”部分。目前稀疏模型训练效率较低。为解决这一问题,研究人员提出两种途径:一是从现有密集模型中提取稀疏回路,而非从头训练;二是开发更高效的模型训练技术以提高可解释性。

来源:https://www.itbear.com.cn/html/2025-11/1020419.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
我把 Anthropic 的 Harness 工程思想做成了一个 Skill

我把 Anthropic 的 Harness 工程思想做成了一个 Skill

用AI写代码,难在哪儿? 用AI生成代码本身并不难,真正的挑战在于让它稳定地交付一个真正可用的东西。这篇文章,我们就来聊聊Anthropic工程团队是如何破解这个难题的,以及我如何将这套方法论落地成了一个可以复用的实战工具。 用 AI 写代码有多难?不是写不出来难,是让它稳定交付可用的东西很难。这篇

时间:2026-04-06 16:53
沃尔玛、塔吉特等美国零售巨头拥抱 AI,明确用户需为购物助手出错担责

沃尔玛、塔吉特等美国零售巨头拥抱 AI,明确用户需为购物助手出错担责

美国零售巨头拥抱AI新玩法:功能归我,风险归你? 最近有件事挺有意思,美国那边的大型零售商们,正铆足了劲把AI往购物流程里塞。但你猜怎么着?一旦AI捅了娄子,买单的却很可能变成了消费者自己。 这不,就在当地时间4月5号,外媒Futurism的一篇报道就点破了这个现象。企业们一边热火朝天地推广AI功能

时间:2026-04-06 13:52
小米物流大件“当日达”服务上线 50 城

小米物流大件“当日达”服务上线 50 城

小米物流大家电“当日达”实现全国50城覆盖,上午11点前下单最快当日送达 对于大家电配送时效长的普遍困扰,小米物流带来了全新的解决方案。最新消息显示,小米旗下大件商品的“当日达”服务范围已成功拓展至全国50座重点城市。除了北京、上海、广州、深圳、杭州、成都等一线与新一线核心城市外,此次升级还囊括了天

时间:2026-04-06 11:57
为什么现在很多人觉得 OpenClaw 不好用

为什么现在很多人觉得 OpenClaw 不好用

当前开源版本的定位 你得明白,当前的开源版本,本质上更偏向于一个**开发者工具链**,而非一个即开即用的完整产品。它的核心组件非常明确: 一个基于 Node js 的运行环境 (runtime) 一个网关 (gateway) 插件与技能 (plugins skills) JSON 配置文件 命令

时间:2026-04-06 11:02
WorkBuddy工具

WorkBuddy工具

好的,我已准备好作为您专属的 SEO 内容优化专家开始工作。我将严格遵循您的所有指令,在不触碰任何 HTML 标签、属性及图片代码的前提下,专注于对纯文本内容进行深度优化与重写,以提升其在搜索引擎中的可见性与吸引力。 我的核心工作流程是:首先,我会精准解析您提供的原始文章,确保核心事实与信息结构毫发

时间:2026-04-06 08:34
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程