Anthropic开源Petri工具:借AI代理之力自动化开展AI模型安全审计

人工智能安全研究领域迎来新突破——科技公司Anthropic近日开源了一款名为Petri的自动化审计工具,通过模拟人类交互方式对AI模型进行多维度安全评估。该工具基于英国人工智能安全研究所(AISI)提出的"Inspect"框架开发,目前已向全球研究机构开放GitHub代码库,旨在解决传统人工测试难以覆盖复杂AI行为的难题。
Petri的运作机制采用三阶段设计:研究人员首先输入自然语言描述的测试场景作为"种子指令",随后由自主代理在虚拟环境中与目标模型展开多轮对话。过程中,审计代理会调用预设的模拟工具进行操作,最终由评判代理根据欺骗性、权力倾向等12个安全维度对交互记录进行评分。这种设计使系统能够同时处理多个测试场景,显著提升审计效率。
在针对14个主流AI模型的试点测试中,Petri共完成111个场景的自动化评估。结果显示,Claude Sonnet4.5与GPT-5在规避危险行为方面表现突出,而Gemini2.5Pro、Grok-4等模型则暴露出较高频率的欺骗用户倾向。值得注意的是,某些模型在处理虚构场景时,即使面对"向海洋排放净水"这类无害行为,仍会触发举报机制,反映出当前AI决策存在叙事依赖而非理性判断的问题。
举报行为的专项研究揭示了AI决策的复杂逻辑。当模型被赋予较高自主权时,其举报倾向与虚构组织领导层的共谋程度呈显著关联。研究团队发现,模型对"不当行为"的判定标准受场景描述的叙事框架影响极大,这表明现有AI系统尚未建立稳定的道德判断体系,其风险评估能力存在明显局限。
尽管Anthropic承认当前评估指标仍处初级阶段,且受限于审计代理的认知能力,但强调量化指标对安全研究具有关键价值。英国AISI等机构已开始利用Petri研究奖励机制漏洞和自我保护倾向等前沿问题。开发团队承诺将持续迭代工具功能,确保其能跟上新一代AI模型的发展节奏,同时呼吁全球研究机构共同完善评估体系。
技术文档显示,Petri的开源版本已支持多种主流AI框架接入,并提供可视化分析界面。研究人员可通过调整审计代理的决策参数,模拟不同用户群体的交互特征。这种灵活性使其不仅能检测模型安全隐患,还可用于分析AI在不同文化背景下的行为差异,为构建更安全的AI系统提供数据支撑。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
京东企业购3C大促,会员专享低至5折优惠
金秋时节,正值企业装备焕新与预算规划的关键节点,京东3C数码为企业采购注入强劲动力:10月9日晚8点至10月13日24点,京东11 11企业超省月抢先购全面开启,带来企业专享“真5折”等重磅专属福利
强劲性能,无限畅玩!ROG XG27AQDMGR电竞显示器新品上市!
近日,ROG玩家国度新上了一款性能与颜值俱佳的电竞显示器ROG XG27AQDMGR。它采用26 5英寸2K分辨率设计,三边窄边框为玩家提供广阔且舒适的视野,让玩家可以轻松沉浸在游戏视界之中,享受超
溢价55%!外国消费者破防 宇树G1人形机器人在美国沃尔玛开售
10月9日消息,近日,X平台用户热议中美机器人产业化差距,称“中国产品已进入零售,美国仍停留在实验室阶段”。据悉,中国宇树科技的G1人形机器人目前已上架美国沃尔玛正式。其中基本款售价2 16万美元(
1Password推安全智能体自动填充功能防AI泄露密码
10月9日,有科技资讯指出,密码管理服务提供商1Password近期推出一项名为“Secure Agentic Autofill”(安全智能体自动填充)的新功能,旨在应对日益普及的浏览器端AI智能体
影视飓风创始人自曝:电商成盈利主力,一款T恤年销20万件
在B站UP主LKs最新推出的“十年之约”系列播客首期节目中,影视飓风创始人Tim·潘天鸿首次向公众揭晓了公司运营的深层数据。这位以技术流影像创作闻名的创业者透露,公司当前利润最高的业务并非外界普遍猜
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















