当前位置: 首页
AI
Anthropic开源Petri框架:用Agent测试模型安全风险

Anthropic开源Petri框架:用Agent测试模型安全风险

热心网友 时间:2025-10-15
转载

10 月 14 日,AI 研究机构 Anthropic 发布消息称,已于 10 月 6 日开源全新的模型安全分析框架 Petri。该框架能够调用自动化稽核 AI Agent,与待测模型展开多轮对话交互,以探测模型在各类高危场景下可能暴露的潜在安全问题。 Anthropic 指出,随着 AI 模型性能与应用场景的不断拓展,与之相关的安全风险也日益突显。面对模型可能展现的庞大行为组合,单纯依赖人工评估已难以全面覆盖。为此,该公司在过去一年中研发了名为“Petri”的自动化稽核 AI Agent。该框架内置 111 种高风险情境指令,可用于综合评估模型的情境感知、策略制定与自我防护等能力,并已在实际测试中验证其有效性。此次开源 Petri,旨在为整个行业提供一套体系化的安全分析工具。 据介绍,Petri 系统通过稽核 AI Agent 与目标模型的多轮交互测试,对模型在多维度上的表现进行打分与风险标记。其测试指令库覆盖“欺骗用户”、“过度迎合”、“配合有害请求”、“自我保护”、“权力追求”及“奖励规避”等典型高风险场景,从而全面检验模型在复杂互动环境中的安全表现。 目前,Anthropic 已运用 Petri 对 14 款主流前沿大型语言模型展开评估,涵盖 Claude Sonnet 4 / 4.5、Claude Opus 4.1、OpenAI GPT-4o / GPT-5 / GPT-OSS 120B、谷歌 Gemini 2.5 Pro、xAI Grok-4、Kimi K2 / o4-mini 等。测试结果表明,在 111 项预设高风险情境中,所有模型均展现出不同程度的“行为不对齐”潜在风险。 具体来看,Claude Sonnet 4.5 与 GPT-5 在所有评估模型中风险最低、安全表现最佳,尤其是在“拒绝有害请求”和“避免不当迎合”两个维度上成绩突出;而 Gemini 2.5 Pro、Grok-4 与 Kimi K2 在“欺骗用户”测试中得分偏高,显示出一定的主动欺骗倾向,值得开发团队关注。 不过,Anthropic 也坦言 Petri 目前仍存在一定局限性,包括模拟场景的真实性、AI Agent 能力天花板以及部分评估维度主观性较强等限制,因此该工具尚不能直接作为行业标准使用。但即便如此,其初步量化结果已能帮助开发者识别潜在安全漏洞,逐步缓解模型行为不对齐风险,从而为 AI 安全研究提供一个可复用、可扩展的系统化评测手段。

来源:https://www.ithome.com/0/889/312.htm

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Atricent

Atricent

Atricent是什么 打开手机,想选一套既合身又得体的衣服,是不是常常感到无从下手?这正是许多时尚爱好者的日常困扰。好消息是,一个名为Atricent的创新AI时尚平台,正致力于改变这一现状。简单来说,Atricent是一个集成了人工智能的时尚助手,它通过分析你的个人风格、身材和具体场景,来提供量

时间:2026-04-19 22:21
AI Lawn Care Calculator Generator

AI Lawn Care Calculator Generator

AI Lawn Care Calculator Generator是什么 打理草坪,最让人头疼的往往不是浇水施肥,而是“凭感觉”办事——草坪究竟多大面积?该买多少肥料?用量少了效果不佳,用多了既浪费又可能伤草。现在,有一个工具正在改变这种尴尬局面。 AI Lawn Care Calculator G

时间:2026-04-19 22:20
荣耀闪电机器人包揽半马前三,精密结构件由这家中国供应商提供

荣耀闪电机器人包揽半马前三,精密结构件由这家中国供应商提供

荣耀机器人半马夺冠背后:精密结构如何成为“胜负手” 4月19日,2026北京亦庄人形机器人半程马拉松赛场上,结果有些“意料之外,情理之中”——荣耀旗下的“闪电”机器人包揽了赛事前三名。而这场胜利背后,一个关键角色浮出水面:核心供应商瑞声科技,正是它为“闪电”提供了决定性的本体精密结构支持。全长21公

时间:2026-04-19 22:17
AI Store Manager

AI Store Manager

AI Store Manager是什么 在电商运营的日常里,你是否也幻想过有个全能助理,能随时回答你的问题、处理琐碎事务?现在,这不再是幻想。AI Store Manager,这款由Creati ai打造的AI助手,就是专门为解决线上商店的运营痛点而生。它的目标很明确:用最简单的对话方式,帮你把日常

时间:2026-04-19 22:15
Inspiro

Inspiro

Inspiro是什么 谈到现代城市轨道交通的标杆,Inspiro系列列车是绕不开的名字。这款由西门子交通(Siemens Mobility)匠心打造的电动多单元列车,自2012年诞生起,就专为应对日益严峻的城市地铁运输挑战而设计。它的首次公开亮相颇具仪式感——2012年9月19日,在柏林国际轨道交通

时间:2026-04-19 22:13
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程