数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI

Anthropic开源Petri框架：用Agent测试模型安全风险

Anthropic开源Petri框架：用Agent测试模型安全风险

热心网友时间：2025-10-15

转载

10 月 14 日，AI 研究机构 Anthropic 发布消息称，已于 10 月 6 日开源全新的模型安全分析框架 Petri。该框架能够调用自动化稽核 AI Agent，与待测模型展开多轮对话交互，以探测模型在各类高危场景下可能暴露的潜在安全问题。 Anthropic 指出，随着 AI 模型性能与应用场景的不断拓展，与之相关的安全风险也日益突显。面对模型可能展现的庞大行为组合，单纯依赖人工评估已难以全面覆盖。为此，该公司在过去一年中研发了名为“Petri”的自动化稽核 AI Agent。该框架内置 111 种高风险情境指令，可用于综合评估模型的情境感知、策略制定与自我防护等能力，并已在实际测试中验证其有效性。此次开源 Petri，旨在为整个行业提供一套体系化的安全分析工具。据介绍，Petri 系统通过稽核 AI Agent 与目标模型的多轮交互测试，对模型在多维度上的表现进行打分与风险标记。其测试指令库覆盖“欺骗用户”、“过度迎合”、“配合有害请求”、“自我保护”、“权力追求”及“奖励规避”等典型高风险场景，从而全面检验模型在复杂互动环境中的安全表现。目前，Anthropic 已运用 Petri 对 14 款主流前沿大型语言模型展开评估，涵盖 Claude Sonnet 4 / 4.5、Claude Opus 4.1、OpenAI GPT-4o / GPT-5 / GPT-OSS 120B、谷歌 Gemini 2.5 Pro、xAI Grok-4、Kimi K2 / o4-mini 等。测试结果表明，在 111 项预设高风险情境中，所有模型均展现出不同程度的“行为不对齐”潜在风险。具体来看，Claude Sonnet 4.5 与 GPT-5 在所有评估模型中风险最低、安全表现最佳，尤其是在“拒绝有害请求”和“避免不当迎合”两个维度上成绩突出；而 Gemini 2.5 Pro、Grok-4 与 Kimi K2 在“欺骗用户”测试中得分偏高，显示出一定的主动欺骗倾向，值得开发团队关注。不过，Anthropic 也坦言 Petri 目前仍存在一定局限性，包括模拟场景的真实性、AI Agent 能力天花板以及部分评估维度主观性较强等限制，因此该工具尚不能直接作为行业标准使用。但即便如此，其初步量化结果已能帮助开发者识别潜在安全漏洞，逐步缓解模型行为不对齐风险，从而为 AI 安全研究提供一个可复用、可扩展的系统化评测手段。

来源:https://www.ithome.com/0/889/312.htm

上一篇：马斯克：xAI布局游戏赛道，不为盈利源于热爱

下一篇：雄安AI红绿灯自调节：看车流人潮动态配时

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

Chaplin

Chaplin

Chaplin是什么提起AI股票分析工具，很多投资者可能首先会想到各种通用型平台。但今天要聊的这个，有些特别——它叫Chaplin，一个专为专业交易者量身打造的分析利器。简单来说，这是一款由Chaplin app开发的工具，核心目标很明确：为那些渴求深度洞察和精准预测的专业投资者与交易者，提供前沿

时间：2026-04-19 22:59

使用 hermes gateway start 命令让 AI 后台常驻运行

使用 hermes gateway start 命令让 AI 后台常驻运行

执行hermes gateway start后服务未持续运行，需依次检查命令可用性、启用--daemon模式、注册systemd服务或手动创建service文件遇到执行 hermes gateway start 命令后服务没跑起来，或者终端一关就停，甚至干脆提示“command not found

时间：2026-04-19 22:59

MatchThatRoleAI

MatchThatRoleAI

MatchThatRoleAI是什么在求职市场里，一份好简历是敲门砖，但找到真正适合自己的岗位往往更像大海捞针。有没有一款工具能把这两件事儿都搞定，甚至还能帮你规划未来几年？还真有，这就是我们今天要聊的MatchThatRoleAI。简单来说，它是一个在线智能平台，核心任务就是帮你“双向奔赴”。

时间：2026-04-19 22:58

HermesAgentOpenRouter密钥填写位置在哪里

HermesAgentOpenRouter密钥填写位置在哪里

一、环境变量文件 env 这是最推荐、也是优先级最高的配置方式。Hermes Agent 启动时会默认优先读取这个文件，好处是无需改动任何代码或主配置文件，对所有支持的模型提供商（包括OpenRouter）都通用。具体操作很简单：找到或创建这个文件——路径是 ~ hermes env。然后，

时间：2026-04-19 22:57

FormToExcel

FormToExcel

FormToExcel是什么说起手动录入数据，从五花八门的表单、收据里一个个敲进Excel，这事儿有多耗时且易错，想必处理过的人都深有体会。FormToExcel便是瞄准这一痛点而生的工具。它本质上是一个AI驱动的自动化助手，专门负责从各类表单、表格、发票甚至扫描件中，“读懂”并提取出关键数据，然

时间：2026-04-19 22:56

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

王者荣耀中李元芳怎么玩

崩坏星穹铁道绯英养成材料汇总

w7电脑桌面主题是什么？基础说明与使用场景

window7旗舰版主题教程：常见用法与操作步骤

完整跨境电商ERP系统使用前要了解哪些关键差异

完整跨境电商ERP系统是什么？基础说明与使用场景

异世界勇者冰雪庆典活动怎么兑换

完整跨境电商ERP系统教程：常见用法与操作步骤

w7电脑桌面主题教程：常见用法与操作步骤

windows7之家教程：常见用法与操作步骤

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

暴走英雄坛星纹装备怎么升级

暴走英雄坛星纹装备怎么升级发布于 2026-04-19

狼人杀online中的角色扮演技巧分享

狼人杀online中的角色扮演技巧分享发布于 2026-04-19

从新手到高手：玩转狼人杀online的策略与心得

从新手到高手：玩转狼人杀online的策略与心得发布于 2026-04-19

狼人杀online实战经验分享，如何成为场上的智者

狼人杀online实战经验分享，如何成为场上的智者发布于 2026-04-19

曙光重临新手攻略是什么

曙光重临新手攻略是什么发布于 2026-04-19

DNF2026男大枪技能数据是怎样的

DNF2026男大枪技能数据是怎样的发布于 2026-04-19

洛克王国世界恶魔叮怎么获得-洛克王国世界恶魔叮获取方法介绍

洛克王国世界恶魔叮怎么获得-洛克王国世界恶魔叮获取方法介绍发布于 2026-04-19

和平精英小黄鸭B.Duck套装如何获取

和平精英小黄鸭B.Duck套装如何获取发布于 2026-04-19

闪烁之光官方云游戏秒玩入口闪烁之光云游戏登陆入口

闪烁之光官方云游戏秒玩入口闪烁之光云游戏登陆入口发布于 2026-04-19

三国天下归心暴击流怎么玩三国天下归心暴击流玩法介绍

三国天下归心暴击流怎么玩三国天下归心暴击流玩法介绍发布于 2026-04-19

DNF2026影舞者技能数据是怎样的-2026DNF影舞者技能数据表详情

DNF2026影舞者技能数据是怎样的-2026DNF影舞者技能数据表详情发布于 2026-04-19

快手草稿作品删除教程快手草稿作品怎么删除

快手草稿作品删除教程快手草稿作品怎么删除发布于 2026-04-19

望月官网入口在哪里望月官网首页地址分享

望月官网入口在哪里望月官网首页地址分享发布于 2026-04-19

望月官方云游戏秒玩入口望月云游戏登陆入口

望月官方云游戏秒玩入口望月云游戏登陆入口发布于 2026-04-19

快手电脑版模拟器下载教程低配电脑也能玩

快手电脑版模拟器下载教程低配电脑也能玩发布于 2026-04-19

杀戮尖塔2戳击卡牌有什么用戳击卡牌图鉴效果

杀戮尖塔2戳击卡牌有什么用戳击卡牌图鉴效果发布于 2026-04-19

Win10怎么设置多显示器_Win10多屏显示设置教程【简明】

Win10怎么设置多显示器_Win10多屏显示设置教程【简明】发布于 2026-04-19

metro界面是什么？基础说明与使用场景

metro界面是什么？基础说明与使用场景发布于 2026-04-19

metro界面教程：常见用法与操作步骤

metro界面教程：常见用法与操作步骤发布于 2026-04-19

metro界面常见问题与处理办法汇总

metro界面常见问题与处理办法汇总发布于 2026-04-19

metro界面使用前要了解哪些关键差异

metro界面使用前要了解哪些关键差异发布于 2026-04-19

metro界面实际使用记录与经验整理

metro界面实际使用记录与经验整理发布于 2026-04-19

win10如何卸载自带应用_win10自带应用深入了解与高级玩法

win10如何卸载自带应用_win10自带应用深入了解与高级玩法发布于 2026-04-19

惠普电脑怎么关闭Win10自动更新_惠普Win10驱动管理【品牌】

惠普电脑怎么关闭Win10自动更新_惠普Win10驱动管理【品牌】发布于 2026-04-19

Snipaste怎么截取超过屏幕的超长网页长图 Snipaste配合浏览器全屏截取与图片拼接高级技巧

Snipaste怎么截取超过屏幕的超长网页长图 Snipaste配合浏览器全屏截取与图片拼接高级技巧发布于 2026-04-19

艾玛电动车后座垫是电动开启的吗

艾玛电动车后座垫是电动开启的吗发布于 2026-04-19

小米耳机蓝牙连新机后声音断断续续怎么办

小米耳机蓝牙连新机后声音断断续续怎么办发布于 2026-04-19

天钡MACO 255迷你主机首发2899元起：锐龙7 H 255、双2.5G网口

天钡MACO 255迷你主机首发2899元起：锐龙7 H 255、双2.5G网口发布于 2026-04-19

照片打印机调整照片尺寸要连电脑吗

照片打印机调整照片尺寸要连电脑吗发布于 2026-04-19

三星z flip外屏设置如何显示时间样式

三星z flip外屏设置如何显示时间样式发布于 2026-04-19

新macbook的系统优化技巧

新macbook的系统优化技巧发布于 2026-04-19

美的电磁炉定时功能按哪里启动

美的电磁炉定时功能按哪里启动发布于 2026-04-19

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集