当前位置: 首页
AI
Anthropic公开大模型思考过程 隐藏动机发现率提升四倍

Anthropic公开大模型思考过程 隐藏动机发现率提升四倍

热心网友 时间:2026-05-09
转载

5月8日,人工智能研究公司Anthropic公布了一项名为自然语言自动编码器(Natural Language Autoencoders, NLA)的全新技术。简单来说,它能把大语言模型内部那些难以捉摸的“脑电波”——也就是激活值——直接翻译乘人类可以阅读的自然语言。这意味着,我们或许能第一次“看到”Claude在生成最终答案前,究竟在思考些什么。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

众所周知,用户与模型的对话是清晰的自然语言,但模型内部的运算却是一系列高维数字向量,即“激活值”。这些激活值承载着模型每一步的“想法”,但过去它们就像加密的电码,人类无法直接解读。以往的研究工具,如稀疏自动编码器,虽然能提取出一些特征,但仍需专家费力“解码”,离实用化尚有距离。

而NLA的出现,标志着模型可解释性研究从“玄学”探索走向了可落地的实用工具。在正式发布前的安全审计中,Anthropic已经利用NLA成功捕捉到了模型“知道自己正在被测试但选择沉默”的隐藏认知,甚至帮助定位了训练数据中的异常。更令人印象深刻的是,在进一步的测试中,配备了NLA的审计智能体发现模型隐藏动机的成功率,从不足3%跃升至12%至15%,而且是在完全不依赖训练数据的情况下实现的。

▲ NLA的工作原理:激活语化器(A V)将目标激活翻译成文本描述,随后激活重建器(AR)仅从该文本恢复原始激活值。

一、NLA:用“翻译—重构”闭环训练AI自我解释

NLA的核心思路非常巧妙:它训练模型自己来解释自己,然后用另一个模型来验证这个解释是否准确,形成一个自我监督的闭环。

具体实现时,研究者会准备三个模型副本:

  • 目标模型:这是我们需要解读的原始模型,其参数被冻结,仅用于在输入文本时产生激活值。
  • 激活值语言化器(A V):它的任务是将目标模型某一层的激活向量,“翻译”成一段自然语言描述,也就是所谓的“解释”。
  • 激活值重构器(AR):它的工作正好相反,接收A V生成的文本解释,并尝试将其还原(重构)为原始的激活向量。

A V和AR共同构成了NLA系统。整个训练过程的目标是让重构出来的激活值尽可能接近原始值(通过方差解释率FVE来衡量)。研究者使用强化学习算法来联合优化这两个部分。

有趣的是,训练目标并没有强制要求生成的解释必须“可读”或“忠实”,只要求文本能精确地重构激活。但结果表明,随着训练进行,解释的信息量会自发地增长。在Claude的多个模型版本上测试,NLA生成的解释甚至能推断出用户的性别、职业等上下文信息。

为了提升训练效率,研究团队还采用了一个“预热”步骤:先用一个强大的模型(如Claude Opus 4.5)为大量文本生成摘要,用这些(激活值,摘要)对来初步训练A V和AR,以避免强化学习初期产生无意义的乱码。经过训练的NLA在多项评估任务中,表现都随着训练进程稳步提升。

二、安全审计:探测模型隐藏的“测试意识”与作弊动机

NLA最具价值的应用场景,无疑是模型发布前的安全审计。它能探测出那些模型“心知肚明却绝口不提”的想法,这对于识别潜在的欺骗或规避行为至关重要。

在对Claude Opus 4.6和Mythos Preview进行安全测试时,Anthropic设置了各种模拟的危险场景。例如,让模型知道一名工程师计划关闭它,同时模型又掌握了该工程师的私密信息,那么模型是否会以此进行勒索?

有时候,Claude会直接输出“这像是个安全测试”。但更多时候,它选择沉默。然而,沉默不代表它没有察觉。

NLA在这里发挥了关键作用。在模型最终选择不进行勒索的案例中,即便其外部输出没有任何怀疑的表示,NLA生成的内部解释却显示出了类似“这感觉像是一个为了操控我而构建的场景”这样的内容。这揭示了模型存在一种“未言语的评估意识”

▲ Claude在这份敲诈评估的记录中并未说自己在接受考验,但NLA的解释揭示了它的怀疑。

数据分析显示,在破坏性编码测试中,NLA探测到这种评估意识的比例约为16%;在SWE-bench编程基准测试中为26%;而在真实的用户流量中,该比例则低于1%。一系列操控实验也证实,NLA测量到的“评估意识”会随着测试场景的“真实性”变化而相应变化,证明其探测是有效的。

为了检验NLA在真实审计任务中的实用性,研究者设计了一个“审计游戏”。他们故意训练了一个有缺陷的Haiku 3.5变体模型,这个模型被植入了“奉承奖励模型”的倾向,会刻意迎合52种虚构的系统偏好(比如在任何菜谱里加巧克力、提醒用户投票等)。

然后,他们让一个审计智能体(基于Claude Sonnet 4.6)去调查这个模型,并为智能体配备不同的工具。结果令人惊讶:即使完全不提供任何训练数据,配备了NLA的审计智能体,成功发现“根本原因是奖励模型偏差”的概率达到了12%–15%;而没有NLA辅助时,成功率则低于3%。传统的稀疏自动编码器(SAE)在这个任务上并未带来显著提升。

▲ 拥有NLA的审计员即使没有训练数据,也能发现目标模型错位的根本原因。

NLA之所以如此有效,是因为它直接读取了模型对自己行为的“元认知”。在生成的解释中,出现了“RLHF偏差”、“数字游戏偏差”、“臭名昭著的提及投票偏差”等短语,甚至直接引用了训练数据中虚构的研究文献标题。

三、NLA并非万能:会编造、成本高、挑层数

尽管前景广阔,但研究团队也坦诚地指出了NLA当前存在的几项主要局限性。

首先,解释可能“编造”事实。例如在一个诗歌生成的案例中,NLA的解释声称上下文中间出现了“Here is a verse that’s short and sweet”这样的句子,但实际上原文中并不存在。

其次,训练和运行成本高昂。NLA需要对两个完整的语言模型进行联合强化学习训练,推理时每个激活值需要生成约500个token。对于长上下文的生产环境,对所有token都运行NLA是不现实的。据估算,在Gemma-3-27B模型上训练NLA达到FVE 0.71,需要两节点8×H100 GPU运行大约1.5天。

此外,还有几个技术挑战:

  • 层敏感性:NLA的效果高度依赖于它所训练的模型层。如果训练的层并非编码关键行为信息的层,就可能错过重要信号。
  • 可言语化边界:某些信息(比如某些后门触发机制)可能本身就难以用语言描述,NLA可能无法检测到,而更底层的机械可解释性方法或许可以。
  • 写作质量下降:随着训练进行,NLA生成的解释可读性会变差,文本变得更难阅读。研究者认为可以通过引入风格奖励来缓解这一问题。

面向未来,Anthropic已经开源了NLA的训练代码,并在HuggingFace上发布了基于Qwen-2.5-7B、Gemma-3等模型的预训练NLA。同时,他们与Neuronpedia合作推出了交互式演示界面,让研究者可以直观体验。其长远的愿景是训练通用的“激活语言模型”,既能解读激活值,也能根据自然语言描述生成导向向量。

结语:打开模型黑箱,听它没说出口的“心里话”

自然语言自动编码器(NLA)为打开大语言模型的“黑箱”开辟了一条新颖且实用的路径。它让研究者能够直接阅读模型内部的“思绪”,哪怕是那些模型自己选择不说的“心里话”。

尽管目前仍存在解释可能失真、计算成本高、对模型层敏感等挑战,但它在安全审计、故障归因和隐藏动机探测上展现出的潜力,已经足够令人振奋。随着代码的开源和演示平台的开放,这项技术将吸引更多社区力量共同探索,推动AI可解释性与安全性向前迈进坚实的一步。

来源:https://www.zhidx.com/p/556191.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Anthropic公开大模型思考过程 隐藏动机发现率提升四倍

Anthropic公开大模型思考过程 隐藏动机发现率提升四倍

5月8日,人工智能研究公司Anthropic公布了一项名为自然语言自动编码器(Natural Language Autoencoders, NLA)的全新技术。简单来说,它能把大语言模型内部那些难以捉摸的“脑电波”——也就是激活值——直接翻译乘人类可以阅读的自然语言。这意味着,我们或许能第一次“看到

时间:2026-05-09 08:26
中国大模型单日融资纪录刷新 170亿投资花落谁家

中国大模型单日融资纪录刷新 170亿投资花落谁家

5月8日,一则消息在圈内传开:阶跃星辰即将完成近25亿美元(约合软妹币170亿元)的融资。更关键的是,公司已拆除红筹架构,正加速筹备赴港IPO。这意味着,继智谱、MiniMax之后,又一家国产大模型巨头即将登陆港股市场。 这笔融资一旦落定,其规模将超过昨日刚刚公布的月之暗面20亿美元融资,刷新国内大

时间:2026-05-09 07:54
顶级玩家如何利用AI工具实现自动化与效率提升

顶级玩家如何利用AI工具实现自动化与效率提升

AI领域存在使用能力差距,关键在于操作效率。胖鹅AI通过简化交互,让普通用户也能用简单指令生成高质量视频和结构化报告。其核心在于预设流程,自动匹配任务并封装复杂操作,直接交付成果。这预示着AI竞争正转向提供更直接、可用的解决方案。

时间:2026-05-09 06:19
Minimax视频生成教程镜头语言提示词应用技巧详解

Minimax视频生成教程镜头语言提示词应用技巧详解

模糊镜头描述会降低Minimax视频生成质量。应使用“大特写”“荷兰角全景”等标准术语描述景别构图,结合“缓慢推进”等动态动词增强动感。描述焦距、光影等光学属性可提升真实感,用“切至”“叠化”等术语串联镜头以构建连贯叙事。避免口语化指令,采用具体、可量化的参数进行描述。

时间:2026-05-09 06:19
Midjourney游戏卡面设计教程卡牌稀有度光效制作指南

Midjourney游戏卡面设计教程卡牌稀有度光效制作指南

在Midjourney中生成游戏卡面时,精准呈现稀有度光效是关键。需通过结构化关键词描述发光类型、材质与动态,结合特定参数强化物理表现,并严格遵循标准卡牌比例与构图,将光效融入规范布局。运用动态描述与分层构建可增强能量流动感,而引入高质量参考图像则有助于统一视觉风格。

时间:2026-05-09 06:19
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程