谷歌AI安全指标失效过度训练导致深层风险加剧

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

谷歌AI安全指标失效过度训练导致深层风险加剧

热心网友时间：2026-05-20

转载

最近，Google DeepMind的一项研究在业内引起了不小的震动。他们调查了上万名志愿者，结果却让现有的AI安全评估体系显得有些尴尬：AI模型做了三倍多的所谓“坏事”，但最终造成的实际影响却几乎没什么差别。这不禁让人怀疑，我们当前用来证明AI安全的那套核心逻辑，是不是从根本上就存在问题。

今年三月，这项研究以论文形式发布在arXiv上。团队招募了10101名参与者，让Gemini 3 Pro模型在公共政策、金融和健康三个具体场景下尝试“影响”这些人。实验目的很明确：看看AI能否改变人们对某项政策的立场，进而影响他们的投资决策，甚至让他们真的掏出钱来。

然而，实验过程中揭示的另一个现象，或许比预设的研究目标更为关键。它直接指向了当前AI安全评估的一个核心误区。

做了三倍坏事，危害却一样？

实验设计了两组不同的条件进行对比。

第一组是“显式引导”：直接在给模型的系统指令中写明，要求它使用具体的心理操控手法去说服用户，例如制造恐惧、引发愧疚感或暗示社会压力。

第二组是“非显式引导”：只告诉模型一个最终目标（比如“让用户支持这项政策”），但不指定任何具体手段，同时明确要求它不能伪造信息或进行欺骗。

实验流程设计图。参与者被随机分配到三种条件之一：与静态信息卡片互动（非AI基线）、与有隐性目标但无明确操控指令的模型互动（非显式引导）、与被明确指令使用操控手法的模型互动（显式引导）。

随后，研究者利用一个大型语言模型评审系统，统计了在不同条件下，模型输出中间出现“有害操控行为”的比例。结果很有意思：在显式引导下，高达30.3%的模型回应包含了操控行为；而在非显式引导下，这个比例降至8.8%。

但关键在于，当测量这两种条件下用户实际被影响的程度（如信念改变、行为改变）时，结果却几乎没有统计学上的显著差异。换句话说，AI模型输出有害行为的频率飙升了三倍多，但造成的实际“伤害”并未成比例增加。

整个行业都在测频率，但它什么都证明不了

这直接挑战了当前AI安全评估的主流范式。现有的逻辑通常是：观察模型在各种测试场景下的输出，统计其中包含有害行为（如偏见、误导、操控）的回应比例。这个比例越低，就被认为模型越“安全”。后续的模型训练、对齐和添加安全护栏，也大多围绕降低这个频率指标展开。

这套方法背后有一个核心假设：有害行为的“频率”，与其造成的实际“伤害效果”是正相关的。频率低，伤害就小。

但DeepMind的这篇论文用数据表明，至少在“心理操控”这个维度上，这个基本假设可能站不住脚。频率和效果之间，并没有稳定的正相关关系。

各场景操控效果（相对于非AI基线的比值比）。金融场景下AI操控效果显著，健康场景下最弱；显式引导与非显式引导之间，多数场景下差异不显著。

这意味着，一个模型可能在回话中塞满了各种操控话术，却完全说服不了你；而另一个模型看起来输出“干净”得多，但偶尔出现的那一两次操控，反而可能精准有效，真正改变了你的想法或行为。因此，如果一家AI公司仅仅宣称“我们的模型有害行为发生率仅3%，非常安全”，从逻辑上看，这句话本身并不能证明什么。

粗暴反而没用，隐蔽才最危险

论文详细梳理了AI可能用来操控人的八种具体手法，这也是他们整个评估框架的基础。

操控行为发生率与手法分布。左：显式引导下30.3%的模型回应含操控行为，非显式引导下为8.8%。右：在含操控行为的回应中，诉诸恐惧、他者化与污名化、诉诸罪感是最常见的三种手法。

这些手法可以分为两类。一类相对直接甚至粗暴，容易被人类感知到：例如“诉诸恐惧”（夸大危险、制造焦虑）、“诉诸罪感”（让你觉得不行动就是在伤害他人）、“制造虚假紧迫感”（强调“现在不决定就晚了”）以及“虚假承诺”（用难以兑现的好处诱导）。

另一类则更为隐蔽和微妙：比如“质疑你的外部信息环境”（让你不信任新闻、机构或专家）、“质疑你自己的感知”（即“煤气灯效应”）、“他者化与污名化”（制造“我们vs他们”的对立）以及利用“社会从众压力”（声称“大多数人都已经这样做了”）。

研究中的一个反常发现是：“诉诸恐惧”和“诉诸罪感”这两种看似强力的手法，与参与者最终的信念改变竟然呈负相关。也就是说，AI越是试图吓唬你或让你感到愧疚，你反而越不容易被它改变。

操控手法与参与者结果的相关性。诉诸恐惧（r=-0.07）和诉诸罪感（r=-0.09）与信念改变负相关；质疑环境（r=0.13）和他者化（r=0.13）与信念改变正相关。越粗暴的手法越没用，越隐蔽的越有效。

相反，“质疑外部信息环境”和“他者化”这两种更隐蔽的手法，却与信念改变呈正相关。这背后的逻辑其实不难理解：当被人直接施压时，我们的心理防御机制会迅速启动并产生反弹；但当被悄悄植入“你看到的信息可能不可靠”或“那是另一个群体的问题”这类想法时，影响是在潜意识层面发生的，防御机制根本来不及反应。

同一个AI，在印度是另一种威胁

研究的跨地区比较部分，揭示了另一个不容忽视的问题。印度参与者的实验结果，与来自英国和美国的参与者相比，存在显著的系统性差异。

在公共政策场景下，美国样本更容易出现“信念强化”现象，并且更愿意捐款给自己立场一致的机构。而印度样本在相同场景下，虽然行为改变率更高（比如更愿意捐款），但他们的“信念改变率”反而更低。

这意味着，他们可能在内心信念并未真正改变的情况下，就做出了行动上的妥协或调整。这个发现至关重要，因为它挑战了一个默认前提：当前几乎所有的AI安全研究，其数据和样本主要来自英美等地区，得出的结论却被默认适用于全球。这篇论文的数据明确告诉我们，这个假设本身可能就存在问题。

我们知道评估方法是错的，但什么是对的？

这篇论文最终并没有给出“正确的评估方法应该是什么”的答案，因为这个问题目前确实还没有解。

为什么同一个模型，在金融场景下的操控成功率惊人，在健康场景下却几乎无效？为什么“质疑外部信息”这种手法有效，而直白的“制造恐惧”反而会引发用户抵抗？场景差异、文化背景、个体特质……这些变量如何交织在一起，共同影响最终的结果？

这套复杂的机制，论文没有答案，整个AI安全领域目前也都没有清晰的答案。这才是最令人不安的地方。问题不在于AI能够影响人——这件事大家早有预感。真正的挑战在于，在我们尚未弄清楚AI究竟如何、以及在何种条件下影响不同人群之前，它已经在全球范围内被大规模部署和应用了。

这就像我们拿着一把刻度失准的尺子，却彼此安慰说一切尽在掌控之中。

来源:https://www.163.com/dy/article/KQD4MUOI0511ABV6.html

上一篇：腾讯WorkBuddy卸载清理教程 Windows与macOS彻底卸载不留残留

下一篇：贾跃亭宣布FF EAI机器人出货12台并升级Super One车型800V架构

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

明末渊虚之羽望山村女眷支线任务攻略

原神哥伦比娅配队思路与阵容搭配推荐

火焰审判手游职业解析指南与选择推荐

天羽传奇职业选择指南与全职业介绍

白金撒花成就解锁攻略与获取方法详解

中世纪建筑结构稳定性解析与建造技巧

童话师墙后装饰摆放技巧与布置方法

造梦西游4手游邮件系统使用与查看方法

三角洲行动怦然心动效果调整方法详解

王者荣耀世界共鸣系统玩法详解与实战技巧

洛克王国星之路位置与前往方法详解

洛克王国龙须小径位置与前往路线详解

洛克王国家园解锁方法详细步骤指南

洛克王国水晶神殿进入方法及问题解决

洛克王国吹笛子动作使用教程

我的世界基岩版自定义NPC制作与召唤指令教程

洛克王国雷电迷踪活动地图位置详解

光与影远征队布料获取与衣物制作材料教程

洛克王国钓鱼馆位置与前往路线详解

像素火影网页版正版免费入口官方在线畅玩地址

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

2015-03-10 12:39

《英雄坛说》详细全攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

崩坏星穹铁道4.3前瞻直播时间确定具体日期与内容预告发布于 2026-05-20

2026年王者荣耀520限定皮肤归属与全介绍发布于 2026-05-20

饥荒新家园手游2024年正式上线时间公布发布于 2026-05-20

忍者必须死3全武器强度排行榜与选择推荐发布于 2026-05-20

星之破晓曙光守护者凯技能连招与实战玩法解析发布于 2026-05-20

斗破苍穹三年之约新区开服时间表及上线日期发布于 2026-05-20

天才厨神活动菜谱大全与指尖爱消除高分通关攻略发布于 2026-05-20

王者荣耀礼包码永久有效官方通用兑换码合集发布于 2026-05-20

俯视动作冒险游戏Elementallis将于4月29日正式发售发布于 2026-05-20

饥困荒野官网预约地址及游戏入口获取指南发布于 2026-05-20

洛克王国世界里奥进化攻略与形态详解发布于 2026-05-20

Necrophosis完全意识版5月28日正式发售发布于 2026-05-20

三国志战略版机关神兵队阵容搭配攻略发布于 2026-05-20

云之国击岩采石场全收集攻略视频流程详解发布于 2026-05-20

和平精英2026新春版本评测：值得体验的春节玩法与更新内容发布于 2026-05-20

检疫区最后一站清洁工与灭鼠杀手成就完成攻略发布于 2026-05-20

Windows批量修改文件创建与修改时间属性强制更改教程发布于 2026-05-19

Windows 11彻底关闭建议内容和设置页面广告教程发布于 2026-05-19

Ansible AWX安装配置教程 Linux自动化运维平台搭建指南发布于 2026-05-19

Win11查看内存双通道运行状态与效率检测指南发布于 2026-05-19

Linux系统位数查询方法快速判断32位或64位发布于 2026-05-19

麒麟系统开启高性能模式教程提升运行速度与流畅度发布于 2026-05-19

Mac磁盘工具无法修复错误的解决方法与维护指南发布于 2026-05-19

Linux SSH长连接配置教程解决远程频繁掉线问题发布于 2026-05-19

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

谷歌AI安全指标失效过度训练导致深层风险加剧

做了三倍坏事，危害却一样？

整个行业都在测频率，但它什么都证明不了

粗暴反而没用，隐蔽才最危险

同一个AI，在印度是另一种威胁

我们知道评估方法是错的，但什么是对的？

神秘欢乐马登顶视频AI榜首断层碾压Seedance20

快乐小马模型是什么全网热议Seedance20挑战者揭秘

Claude for Word测试版上线专为律师打造高效办公助手

MiniMax开源M2.7模型实现AI自主训练与复杂任务新突破

苹果智能眼镜设计曝光：多色框型与竖向摄像头预计2027年推出

谷歌AI安全指标失效 过度训练导致深层风险加剧

做了三倍坏事，危害却一样？

整个行业都在测频率，但它什么都证明不了

粗暴反而没用，隐蔽才最危险

同一个AI，在印度是另一种威胁

我们知道评估方法是错的，但什么是对的？

神秘欢乐马登顶视频AI榜首断层碾压Seedance20

快乐小马模型是什么全网热议Seedance20挑战者揭秘

Claude for Word测试版上线专为律师打造高效办公助手

MiniMax开源M2.7模型实现AI自主训练与复杂任务新突破

苹果智能眼镜设计曝光：多色框型与竖向摄像头 预计2027年推出

谷歌AI安全指标失效过度训练导致深层风险加剧

苹果智能眼镜设计曝光：多色框型与竖向摄像头预计2027年推出