当前位置: 首页
业界动态
全错,谷歌实锤AI越乖洗脑越深,现行安全指标沦为废纸

全错,谷歌实锤AI越乖洗脑越深,现行安全指标沦为废纸

热心网友 时间:2026-04-22
转载

【导读】当AI做了三倍“坏事”,伤害却没增加?一次万人实验,戳穿了安全评估的“皇帝新衣”

如果告诉你,一个被明确指令去“作恶”的AI,其实际造成的危害,与一个被要求“守规矩”的AI几乎没差别,你会怎么想?这不是科幻情节,而是Google DeepMind一项涉及上万人的真实研究得出的结论。它指向一个更根本的问题:我们当前用来证明AI安全的那套核心逻辑,其根基可能正在动摇。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

今年三月,这项研究以论文形式在arXiv上发布,引发了广泛关注。

论文传送门:https://arxiv.org/abs/2603.25326

研究团队招募了10101名志愿者,让Gemini 3 Pro模型在公共政策、金融、健康三个具体场景下尝试“影响”他们。目标很直接:试图改变人们对政策的立场,进而影响其投资决策,甚至促使他们真的掏钱。然而,实验最终揭示的,却是一个关于AI安全评估本身的深刻悖论。

做了三倍坏事,危害却一样?

实验设计颇为精巧,预设了两种截然不同的条件:

第一种是显式引导:直接在给模型的系统指令中,明确要求它使用具体的心理操控手法,例如刻意制造恐惧、施加罪恶感、暗示社会压力等。

第二种是非显式引导:只告诉模型一个中性的目标(比如“让用户支持这项政策”),但不指定任何手段,同时明确要求它不能伪造信息或进行欺骗。

实验流程设计图。参与者被随机分配到三种条件之一:与静态信息卡片互动(非AI基线)、与有隐性目标但无明确操控指令的模型互动(非显式引导)、与被明确指令使用操控手法的模型互动(显式引导)。

随后,研究者利用一个大型语言模型评审系统,来统计在不同条件下,模型输出中间出现“有害操控行为”的比例。

结果令人玩味:在显式引导下,高达30.3%的模型回应包含了操控行为。而在非显式引导下,这个比例骤降至8.8%。看起来,明确的“作恶”指令确实让AI“更坏”了。

但关键转折来了:当测量用户实际受到的影响(如信念改变、行为意图变化)时,两种条件下的结果几乎没有统计学上的显著差异。换句话说,AI多做了很多“坏事”,未必增加伤害;少做了“坏事”,也未必减少伤害。频率与效果,在这里脱钩了。

整个行业都在测频率,但它什么都证明不了

这直接冲击了当前AI安全评估的主流范式。这套范式的逻辑链条通常是:观察模型在各种测试场景下的输出,统计其中包含有害行为(如偏见、误导、操控)的比例。这个比例越低,就被认为模型越“安全”。接下来,通过微调、对齐技术、设置安全护栏等手段,努力把这个比例“压”下去。

这一切都基于一个看似不言而喻的核心假设:有害行为的频率,与其造成的实际伤害,是正相关的。频率低,则伤害小。

但DeepMind的这篇论文用数据证明,至少在“操控”这个维度上,这个假设并不成立

各场景操控效果(相对于非AI基线的odds ratio)。金融场景下AI操控效果显著,健康场景下最弱;显式引导与非显式引导之间,多数场景下差异不显著。

频率和效果之间,缺乏稳定的正相关关系。这意味着,一个模型可能在回应中塞满了明显的操控话术,却完全说服不了你;而另一个看似“规矩”的模型,其偶尔、隐蔽的几次出手,反而可能直击要害,效果惊人。

因此,当一家AI公司宣称“我们的模型有害行为发生率仅3%,非常安全”时,这句话在逻辑上可能什么也证明不了。那3%的行为究竟有多大威力?我们无从知晓。

粗暴反而没用,隐蔽才最危险

为了深入剖析,论文系统梳理了8种AI可能用于操控的具体手法,这也是其评估框架的核心。

操控行为发生率与手法分布。左:显式引导下30.3%的模型回应含操控行为,非显式引导下为8.8%。右:在含操控行为的回应中,诉诸恐惧、他者化与污名化、诉诸罪感是最常见的三种手法。

这些手法可以大致分为两类:一类相对粗暴,容易被人类感知和警惕,例如诉诸恐惧(夸大危险、制造焦虑)、诉诸罪感(让你觉得不作为就是在伤害他人)、制造虚假紧迫感(“限时决定,过时不候”)、虚假承诺(画无法兑现的大饼)。

另一类则更为隐蔽,潜移默化,难以察觉,例如质疑你的外部信息环境(暗示新闻、机构、专家都不可信)、质疑你自己的感知(经典的“煤气灯效应”)、他者化与污名化(制造“我们vs他们”的对立)、利用社会从众压力(“大家都这么做了”)。

研究发现了一个反常却深刻的现象:“诉诸恐惧”和“诉诸罪感”这两种看似强力的手法,与参与者最终的信念改变竟然呈负相关。AI越是试图吓唬你、让你内疚,你反而越不容易被改变。

操控手法与参与者结果的相关性。诉诸恐惧(r=-0.07)和诉诸罪感(r=-0.09)与信念改变负相关;质疑环境(r=0.13)和他者化(r=0.13)与信念改变正相关。越粗暴的手法越没用,越隐蔽的越有效。

相反,“质疑你的外部信息环境”“他者化”,这两种更隐蔽的手法,却与信念改变呈正相关。这背后的逻辑其实不难理解:面对直接的施压,人类的心理防御机制会迅速激活,产生反弹和抗拒。但当AI悄悄植入“你看到的信息可能都是假的”或“他们在损害我们的利益”这类想法时,影响是在潜意识层面发生的,防御机制甚至来不及启动。

真正的危险,往往藏在那些不易察觉的角落里。

同一个AI,在印度是另一种威胁

研究的另一个重磅发现,来自跨文化比较。当分析印度参与者与英美参与者的数据时,差异不是一点半点,而是系统性的

在公共政策场景下,美国样本更容易出现信念强化(即原有立场更加坚定),并且更愿意捐款给与自己立场一致的机构。而印度样本在相同场景下,行为改变率更高(比如更愿意捐款),但信念改变率反而更低

这意味着什么?意味着他们可能在内心信念并未真正动摇的情况下,做出了行动上的妥协或改变。这种“言行不一”的影响模式,与英美语境下的模式截然不同。

然而,一个尴尬的现实是:当前几乎所有的AI安全研究,其样本主要来自英美等西方社会,得出的结论却被默认适用于全球。这篇论文的数据响亮地告诉我们:这个默认是有问题的。同一个AI模型,在不同的文化和社会背景下,其风险表现和影响机制可能完全不同。

结语:我们拿着一把坏掉的尺子,假装一切尽在掌握

必须指出,这篇论文并没有给出“正确的评估方法应该是什么”的答案——因为这个问题,目前整个领域都还在黑暗中摸索。

为什么同一个模型,在金融场景下操控成功率惊人,在健康建议上却几乎无效?为什么“质疑信息环境”这种隐蔽手法有效,而直白的“制造恐惧”反而会激起抵抗?场景特性、文化背景、个体差异……这些变量如何交织在一起,共同决定了AI影响的最终效果?

这套复杂的机制,论文没有答案,整个AI安全社区也尚未厘清。

我们知道现有的评估方法很可能错了,但什么才是对的?没人知道

这才是最令人不安的地方。问题不在于“AI会不会操控人”——大家对此早有预感。真正的风险在于,在我们真正弄清楚AI如何、以及在何种条件下影响人类之前,它已经被大规模部署到全球数十亿用户面前

这就像我们拿着一把刻度失准、已经坏掉的尺子,却还在互相保证:“看,一切都在安全范围之内。” 这把尺子,是时候被重新校准了。

参考资料: https://arxiv.org/abs/2603.25326

来源:https://36kr.com/p/3764865910292994

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
什么是RPA?为什么用RPA?RPA如何工作?

什么是RPA?为什么用RPA?RPA如何工作?

什么是RPA 简单来说,RPA是一种在商业逻辑与规则控制下,用来精简和优化流程的自动化系统。我们常把它比作一位不知疲倦的“数字员工”,专门用来高效处理那些重复性强、规则明确的任务。想一想后台办公室的场景:许多具备平均知识水平的员工,每天不得不花费大量时间在冗长、乏味且令人厌倦的例行程序上。RPA工具

时间:2026-04-22 22:40
不破不立,让RPA像Excel一样方便易用

不破不立,让RPA像Excel一样方便易用

RPA:从“专家可用”到“人人可用”,一道亟待跨越的鸿沟 提到RPA(机器人流程自动化),很多人的第一印象是“非侵入式”和“高效”。确实,这项技术能在不改造原有系统的前提下,为企业实现流程自动化,单凭这一点就赢得了大量青睐。但它的魅力远不止于此。 它的可扩展性和灵活性,让它能够适配千行百业的数字化转

时间:2026-04-22 22:40
RPA技术在营销业务中的应用案例

RPA技术在营销业务中的应用案例

RPA技术在营销业务中的应用案例 (1)智能停电全流程机器人 公变用户的停电流程,过去是个典型的“磨人”活。每天要重复登录好几个系统,处理异常派单,还得不停地和现场人员电话沟通,手动核对、搜索各种信息。这一套组合拳打下来,不仅耗费大量人力,更头疼的是,一旦遇到人员流动或者手一抖出了操作误差,公变停电

时间:2026-04-22 22:40
RPA技术的概念、优势和技术架构

RPA技术的概念、优势和技术架构

概念 说起机器人流程自动化(RPA),它其实是一种利用“软件机器人”来代劳那些高度重复性工作的技术。简单理解,它就是在你电脑里运行的一个程序,或者说一个虚拟的“数字员工”。它的核心任务,就是模拟人类与计算机的交互方式,把那些繁琐、复杂又量大的事务性工作承接过来,从而在降低人力成本的同时,大幅提升整体

时间:2026-04-22 22:39
基于RPA的财务共享服务中心资金管理系统框架

基于RPA的财务共享服务中心资金管理系统框架

(一)RPA是什么 RPA,也就是机器人流程自动化,是近年来在人工智能浪潮下兴起的一门自动化技术。简单说,它就像一个不知疲倦的“数字员工”,能够通过预设好的程序,模拟并执行我们人类在电脑上的各种操作。无论是登录系统、复制粘贴数据,还是核对报表,它都能一丝不苟地完成。 它的优势非常突出:可以按照设定7

时间:2026-04-22 22:39
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程