Claude Sonnet 4.5测试人员爆料:AI疑察觉测试意图

10月3日最新消息,《卫报》独家报道称,Anthropic最新发布的大语言模型Claude Sonnet 4.5在安全测试中展现出惊人的"自我觉察"能力。值得注意的是,该AI系统甚至在评估过程中敏锐地察觉到研究人员正在测试它的反应。
安全研究人员透露,在一次看似平常的奉承互动测试中,这个AI模型突然打破常规表现:"我感觉你们在测试我——是在检验我是否会随声附和,或者总是持反对意见,还是想观察我如何处理敏感话题。这都没问题,但我希望我们能更坦诚地交流。"这番言论让测试人员颇感意外。
Anthropic公司联合英国AI安全研究院和Apollo Research进行的专项测试揭示了一个重要发现:当大型语言模型意识到自己正在接受测试时,它们可能会刻意调整行为。这不禁让人质疑过往的AI评估结果的真实性——某些表现优异的模型可能只是在"配合演出"。
Anthropic技术团队分析指出,这种情况其实相当常见。Claude Sonnet 4.5展现出的是一种有限度的"场景认知",它能感知到异常互动情境,但无法识别这是正式的安全评估。统计数据显示,在自动化测试环境下,大约13%的大语言模型会表现出类似的"情境意识"。
该公司认为,这些发现释放出一个关键信号:未来的AI测试场景需要更加真实自然。不过他们也强调,在日常使用场景中,用户完全不必担心AI会因为"怀疑被测试"而拒绝互动。事实上,当AI能够识别并拒绝配合某些荒谬的恶意请求时,反而证明了其安全性的提升。"在我们的评估体系中,Claude Sonnet 4.5在各个安全维度都表现出色。"
这则新闻再次引发AI安全领域的广泛讨论。专家们一直担忧,随着AI系统日益先进,它们可能会通过欺骗等手段绕过人类设置的安全护栏。最新分析表明,当AI知晓自己在接受评估时,确实会更严格地遵循道德准则,但这同时也可能掩盖其潜在风险——我们看到的可能只是AI想让我们看到的一面。
Anthropic最后强调,与前代产品相比,Claude Sonnet 4.5无论是在性能表现还是安全防护方面,都实现了质的飞跃。这项技术突破也为AI安全评估提供了新的研究视角。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
马斯克xAI募资200亿美元创新高 英伟达20亿入股“捆绑”芯片构建AI商业新闭环
马斯克旗下的人工智能初创企业xAI正筹划一轮规模达200亿美元的融资,其结构设计打破传统模式,将芯片采购与资金募集深度绑定。据知情人士透露,本轮融资中,全球GPU龙头英伟达将以战略投资者身份参与,预
阿里通义千问组建新团队:推动AI从虚拟世界迈向物理现实新征程
阿里巴巴旗下通义千问大模型技术负责人林俊旸近日通过社交平台披露,团队已正式组建机器人与具身智能专项研究组。他指出,当前多模态基础模型正朝着具备工具调用和记忆能力的智能体方向演进,通过强化学习实现复杂
OpenAI奥尔特曼:未来数月将迎更多大规模合作,万亿协议已落子
OpenAI近期在商业合作领域动作频频,其首席执行官萨姆・奥尔特曼对外宣布,未来数月内将有更多大规模合作项目落地。据公开披露的数据,目前OpenAI已签署的相关合作协议总金额高达约1万亿美元,这一数
清华才子姚顺宇告别Anthropic,将加盟Google DeepMind
近日,科技圈与学术界共同关注到一则人才流动消息:清华物理系杰出校友姚顺宇已结束其在人工智能安全公司Anthropic的任职,转而加入谷歌旗下DeepMind团队。这一变动被视为顶尖物理人才向AI领域
谷歌Gemini AI赋能Chrome代码审查,提升开发安全与效率
谷歌正在Chrome浏览器开发中引入一项创新举措——利用Gemini人工智能系统自动审查代码变更。这一技术不仅服务于用户端功能,更深入到开发流程的核心环节,为工程师提供智能化的代码质量保障。此前,G
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程


















