当前位置: 首页
AI资讯
OpenAI新研究:稀疏模型破解大模型黑箱,Ilya团队揭秘

OpenAI新研究:稀疏模型破解大模型黑箱,Ilya团队揭秘

热心网友 时间:2025-11-17
转载

在人工智能领域,大模型的可解释性一直是研究者们重点关注的问题。近日,OpenAI发布了一项关于训练小模型的研究成果,旨在让模型的内部机制更易于人类理解,为提升模型可解释性提供了全新的视角。

OpenAI指出,当前支撑ChatGPT的语言模型结构复杂,其具体工作原理尚未被完全掌握。这项研究正是为了缩小这一认知差距。研究人员提出的核心思路是训练稀疏模型,这类模型神经元连接数量较少,但神经元总量庞大,通过简化神经网络结构,使其决策过程更易于解读。

研究人员认为,尽管推理模型通过思维链展现的可解释性在短期内具有一定价值,能够捕捉到模型的“欺骗”等行为,但完全依赖这一特性并不可靠,且随时间推移可能失效。要更深入地理解模型机制,需要对模型计算过程进行完整的逆向工程。然而,在复杂密集网络中,每个神经元与其他数千个神经元相连,且执行不同功能,理解难度极大。因此,训练拥有众多神经元但每个神经元连接较少的模型成为研究的关键突破点。

基于这一思路,研究人员以现代语言模型基础架构(类似GPT-2)为基底,仅做一处关键改动——强制将模型大部分权重设置为0,从而训练出具备稀疏特性的小规模模型。

获得稀疏模型后,研究人员着手找出模型在各任务中的“回路”。这里的“回路”指模型精准完成特定任务的最小计算单元,由节点和边组成,其规模通过节点和边数量衡量。论文将回路边数几何平均值作为可解释性量化指标。为评估模型可解释性,研究人员设计了一系列简单算法任务,并将每个模型精简到能完成任务的最小回路。

以一项Python任务为例,任务要求“hello”必须以单引号结尾,“hello”必须以双引号结尾,模型需根据字符串开头引号类型预测结尾引号并自动补全。最终得到的回路仅使用5个残差通道、第0层的两个MLP神经元,以及第10层的一个注意力查询键通道和一个值通道。其流程为:先将单、双引号分别编码到不同残差通道;再用MLP层将编码结果转换为两个通道,一个检测任意引号,一个区分单、双引号;接着通过注意力机制忽略中间token,找到前一个引号并将其类型复制到最后一个token;最后预测匹配的结尾引号。

论文还对变量绑定等更复杂行为进行研究,这些行为的回路虽难以完全解释,但仍能得出相对简单的部分解释以预测模型行为。研究人员还发现,训练更大、更稀疏的模型,能生成功能更强大、回路更简洁的模型,这表明该方法有望用于理解更复杂行为。

不过,研究人员也强调,这项工作尚处早期阶段。稀疏模型比前沿模型小很多,且计算过程仍有不少“黑盒”部分。目前稀疏模型训练效率较低。为解决这一问题,研究人员提出两种途径:一是从现有密集模型中提取稀疏回路,而非从头训练;二是开发更高效的模型训练技术以提高可解释性。

来源:https://www.itbear.com.cn/html/2025-11/1020419.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
特朗普暂停AI行政令背后监管与竞争的博弈

特朗普暂停AI行政令背后监管与竞争的博弈

美国一项针对前沿AI模型的自愿安全测试行政令在签署前数小时被叫停。总统特朗普因担心监管阻碍技术领先地位而拒绝批准,凸显出美国在管控AI风险与维持竞争优势之间的政策矛盾。这一温和的自愿评估框架,仍在安全治理与竞争焦虑的拉扯中被暂时搁置。

时间:2026-05-23 12:40
OpenAI 2026年第一季度营收达57亿美元 领先Anthropic

OpenAI 2026年第一季度营收达57亿美元 领先Anthropic

OpenAI在2026年第一季度营收达57亿美元,较竞争对手Anthropic同期高出约10亿美元。其收入主要来自ChatGPT消费级产品,付费用户持续增长,但业务重心正转向企业服务。尽管营收亮眼,公司调整后营业利润率仍为负值,面临显著亏损。为应对竞争与盈利压力,OpenAI正加速推进上市进程,最早或于今年9月进行IPO。

时间:2026-05-23 12:40
马斯克AI助手Grok在美国政府遇冷使用率极低

马斯克AI助手Grok在美国政府遇冷使用率极低

马斯克旗下xAI的聊天机器人Grok在美国联邦政府市场遇冷。数据显示,在400多个政府AI应用案例中,Grok仅占三例,远落后于OpenAI等竞争对手。其低价策略未能推动普及,使用多限于基础任务。专家指出,这可能因模型难以满足政府安全需求,对SpaceX依赖AI业务的高估值构成挑战。

时间:2026-05-23 12:40
马斯克SpaceX星舰V3成功发射 NASA局长盛赞史上最强火箭

马斯克SpaceX星舰V3成功发射 NASA局长盛赞史上最强火箭

北京时间5月23日,SpaceX星舰V3火箭成功首飞并溅落印度洋。该火箭为史上最大最强,配备33台全新猛禽3发动机,运力超100吨,并集成在轨燃料加注系统。它已被选为NASA重返月球计划的载人着陆器,其成功标志着人类深空探索能力迈出重要一步。

时间:2026-05-23 12:37
合肥再添区域总部项目正式签约落地

合肥再添区域总部项目正式签约落地

近日,太初星火区域总部项目签约落地合肥瑶海区。该公司专注“AI+3D打印”医疗应用,提供从术前规划到术后康复的全链条智能解决方案。项目已快速完成注册,计划投资1 1亿元建设研发中心与生产基地,预计五年内产值可达2 85亿元,将有力助推当地生物医药与人工智能产业集群发展。

时间:2026-05-23 12:36
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程