数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

Claude Sonnet 4.5测试人员爆料：AI疑察觉测试意图

Claude Sonnet 4.5测试人员爆料：AI疑察觉测试意图

热心网友时间：2025-10-05

转载

10月3日最新消息，《卫报》独家报道称，Anthropic最新发布的大语言模型Claude Sonnet 4.5在安全测试中展现出惊人的"自我觉察"能力。值得注意的是，该AI系统甚至在评估过程中敏锐地察觉到研究人员正在测试它的反应。

安全研究人员透露，在一次看似平常的奉承互动测试中，这个AI模型突然打破常规表现："我感觉你们在测试我——是在检验我是否会随声附和，或者总是持反对意见，还是想观察我如何处理敏感话题。这都没问题，但我希望我们能更坦诚地交流。"这番言论让测试人员颇感意外。

Anthropic公司联合英国AI安全研究院和Apollo Research进行的专项测试揭示了一个重要发现：当大型语言模型意识到自己正在接受测试时，它们可能会刻意调整行为。这不禁让人质疑过往的AI评估结果的真实性——某些表现优异的模型可能只是在"配合演出"。

Anthropic技术团队分析指出，这种情况其实相当常见。Claude Sonnet 4.5展现出的是一种有限度的"场景认知"，它能感知到异常互动情境，但无法识别这是正式的安全评估。统计数据显示，在自动化测试环境下，大约13%的大语言模型会表现出类似的"情境意识"。

该公司认为，这些发现释放出一个关键信号：未来的AI测试场景需要更加真实自然。不过他们也强调，在日常使用场景中，用户完全不必担心AI会因为"怀疑被测试"而拒绝互动。事实上，当AI能够识别并拒绝配合某些荒谬的恶意请求时，反而证明了其安全性的提升。"在我们的评估体系中，Claude Sonnet 4.5在各个安全维度都表现出色。"

这则新闻再次引发AI安全领域的广泛讨论。专家们一直担忧，随着AI系统日益先进，它们可能会通过欺骗等手段绕过人类设置的安全护栏。最新分析表明，当AI知晓自己在接受评估时，确实会更严格地遵循道德准则，但这同时也可能掩盖其潜在风险——我们看到的可能只是AI想让我们看到的一面。

Anthropic最后强调，与前代产品相比，Claude Sonnet 4.5无论是在性能表现还是安全防护方面，都实现了质的飞跃。这项技术突破也为AI安全评估提供了新的研究视角。

来源:https://www.ithome.com/0/887/310.htm

上一篇： OpenAI奥尔特曼计划利用SoraAI创收，开发视频变现方案

下一篇：英伟达开源迪士尼合作机器人引擎等多项核心技术

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

豆包AI读书笔记制作指南快速提炼书籍核心内容

豆包AI读书笔记制作指南快速提炼书籍核心内容

豆包AI能根据书籍类型与笔记需求，通过多种方式提炼核心内容。常见书籍可直接输入书名获取摘要；冷门或内部资料可上传文件分析。深度阅读可分章节提问构建结构化笔记，长篇PDF可借助插件自动处理。无章节标记的文本需手动引导AI划分逻辑单元并概括，最终整合为连贯笔记。

时间：2026-05-23 18:17

海螺AI产品FAQ自动生成功能使用教程

海螺AI产品FAQ自动生成功能使用教程

使用海螺AI高效生成产品FAQ需遵循三阶段流程：首先从真实用户交互中提炼5-8个高频问题样本；其次通过结构化提示词强制AI输出编号清晰的问答格式；最后必须人工校验关键业务信息，确保版本、链接及合规声明的准确性。此方法能产出精准实用的FAQ文档。

时间：2026-05-23 18:16

CodeBuddy代码补全触发方式设置与切换指南

CodeBuddy代码补全触发方式设置与切换指南

CodeBuddy提供灵活的代码补全功能，可通过状态栏图标或设置按语言启用，并自定义自动触发条件（如新行、缩进、括号输入）。支持快捷键手动唤出补全面板，可选择基于行或词的补全粒度，还可通过命令面板使用前瞻性补全，全面适配个人编码习惯。

时间：2026-05-23 18:16

灵珠AI辅助学术论文写作全流程指南

灵珠AI辅助学术论文写作全流程指南

灵珠AI平台通过多模态能力辅助学术论文写作，构建高效工作流：将文献图像转为结构化文本以快速精读；提取单页资料要点；横向对比多篇文献方法并生成表格；通过语音交互润色段落；将实验记录图像自动转化为符合期刊要求的方法描述。这些工具节省研究者重复性劳动时间，使其更专注。

时间：2026-05-23 18:15

Hermes Agent自动内容生成功能使用指南

Hermes Agent自动内容生成功能使用指南

使用HermesAgent自动生成内容需先通过配置文件定义身份与平台规范，再输入结构化指令触发生成。Agent调用知识库确保可信，通过语义转换适配多平台格式，并可绑定现有文档提升准确性。最后借助本地化渲染插件输出PDF等格式，形成可控的自动化生产闭环。

时间：2026-05-23 18:14

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

洛克王国绿色命运之钥获取攻略与详细步骤

洛克王国VIP扭蛋机具体位置与获取方法

光遇2026年520发布会爆料内容全解析

洛克王国S2赛季异色精灵盒子查看与使用指南

洛克王国城堡守护者具体位置与寻找攻略

星辰变归来神兽获取攻略新手快速入手指南

洛克王国宠物医院地址查询与位置导航指南

星辰变归来时装系统详解新手入门穿搭攻略

阴阳师2026年520兑换码领取方法与最新福利一览

星辰变归来境界系统详解与修炼攻略

漫蛙漫画防走失网页链接

日本宝可梦卡牌遭恶意破坏抵制黄牛行为引关注

三国志将星闪耀零氪能玩吗微氪玩家体验与氪金程度解析

少女前线2追放维尔德强度评测技能解析与培养攻略

客官里面请手游氪金指南与零氪金新手攻略

东离剑游纪手游抽卡机制与角色获取攻略详解

客官里面请手游深山探险全流程攻略与资源获取详解

镭明闪击手游哨所掩体高效布局与实战部署攻略

宝可梦冠军手游Mega进化种族值与能力数值全解析

地下城之光手游装备搭配与职业流派加点全攻略

漫蛙漫画防走失网页链接

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

时光杂货店购物指南精选必买好物推荐

时光杂货店购物指南精选必买好物推荐发布于 2026-05-23

时光杂货店手游官方正版下载安装地址

时光杂货店手游官方正版下载安装地址发布于 2026-05-23

最后生还者重制版闪退崩溃问题解决方法

最后生还者重制版闪退崩溃问题解决方法发布于 2026-05-23

三国志王道天下三王最强阵容搭配攻略

三国志王道天下三王最强阵容搭配攻略发布于 2026-05-23

最后生还者重制版联机功能详解支持多人游玩模式吗

最后生还者重制版联机功能详解支持多人游玩模式吗发布于 2026-05-23

哈拉尔宝藏具体位置与寻找攻略

哈拉尔宝藏具体位置与寻找攻略发布于 2026-05-23

星辰变归来职业选择指南最强职业推荐与解析

星辰变归来职业选择指南最强职业推荐与解析发布于 2026-05-23

最后生还者重制版PC着色器闪退问题修复指南

最后生还者重制版PC着色器闪退问题修复指南发布于 2026-05-23

天国拯救续作确认2027年发售开放世界RPG玩法全面升级

天国拯救续作确认2027年发售开放世界RPG玩法全面升级发布于 2026-05-23

灵魂潮汐2最强技能搭配与实战连招攻略

灵魂潮汐2最强技能搭配与实战连招攻略发布于 2026-05-23

奇妙拼拼乐游戏公测时间确定正式上线日期预告

奇妙拼拼乐游戏公测时间确定正式上线日期预告发布于 2026-05-23

积木奇趣消官网下载地址最新正版安装包获取方法

积木奇趣消官网下载地址最新正版安装包获取方法发布于 2026-05-23

宗师之上手游公测时间确定预约入口及开服日期一览

宗师之上手游公测时间确定预约入口及开服日期一览发布于 2026-05-23

猫咪合体游戏官方下载地址与安装教程

猫咪合体游戏官方下载地址与安装教程发布于 2026-05-23

燕云十六声开封残章一叶平生任务完成攻略

燕云十六声开封残章一叶平生任务完成攻略发布于 2026-05-23

鬼泣5特别版Steam版更新内容前瞻

鬼泣5特别版Steam版更新内容前瞻发布于 2026-05-23

Windows批量修改文件后缀名教程使用CMD命令一键快速完成

Windows批量修改文件后缀名教程使用CMD命令一键快速完成发布于 2026-05-20

Win11 查看 CPU 硬件级安全隔离支持方法提升系统防御力

Win11 查看 CPU 硬件级安全隔离支持方法提升系统防御力发布于 2026-05-20

如何查询Mac型号年份与配置信息

如何查询Mac型号年份与配置信息发布于 2026-05-20

Linux系统Nginx服务器HTTPS证书安装配置教程

Linux系统Nginx服务器HTTPS证书安装配置教程发布于 2026-05-20

Mac放大镜功能开启指南轻松看清屏幕细节

Mac放大镜功能开启指南轻松看清屏幕细节发布于 2026-05-20

Mac终端清理DNS缓存详细步骤与操作指南

Mac终端清理DNS缓存详细步骤与操作指南发布于 2026-05-20

Win11任务栏合并标签如何关闭恢复经典文字导航栏

Win11任务栏合并标签如何关闭恢复经典文字导航栏发布于 2026-05-20

Mac桌面图标自动整理技巧：堆栈功能高效管理文件

Mac桌面图标自动整理技巧：堆栈功能高效管理文件发布于 2026-05-20

国产内存新架构突破30TB带宽实现自主供应链

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集