Anthropic开源Petri框架:用Agent测试模型安全风险

10 月 14 日,AI 研究机构 Anthropic 发布消息称,已于 10 月 6 日开源全新的模型安全分析框架 Petri。该框架能够调用自动化稽核 AI Agent,与待测模型展开多轮对话交互,以探测模型在各类高危场景下可能暴露的潜在安全问题。 Anthropic 指出,随着 AI 模型性能与应用场景的不断拓展,与之相关的安全风险也日益突显。面对模型可能展现的庞大行为组合,单纯依赖人工评估已难以全面覆盖。为此,该公司在过去一年中研发了名为“Petri”的自动化稽核 AI Agent。该框架内置 111 种高风险情境指令,可用于综合评估模型的情境感知、策略制定与自我防护等能力,并已在实际测试中验证其有效性。此次开源 Petri,旨在为整个行业提供一套体系化的安全分析工具。 据介绍,Petri 系统通过稽核 AI Agent 与目标模型的多轮交互测试,对模型在多维度上的表现进行打分与风险标记。其测试指令库覆盖“欺骗用户”、“过度迎合”、“配合有害请求”、“自我保护”、“权力追求”及“奖励规避”等典型高风险场景,从而全面检验模型在复杂互动环境中的安全表现。 目前,Anthropic 已运用 Petri 对 14 款主流前沿大型语言模型展开评估,涵盖 Claude Sonnet 4 / 4.5、Claude Opus 4.1、OpenAI GPT-4o / GPT-5 / GPT-OSS 120B、谷歌 Gemini 2.5 Pro、xAI Grok-4、Kimi K2 / o4-mini 等。测试结果表明,在 111 项预设高风险情境中,所有模型均展现出不同程度的“行为不对齐”潜在风险。 具体来看,Claude Sonnet 4.5 与 GPT-5 在所有评估模型中风险最低、安全表现最佳,尤其是在“拒绝有害请求”和“避免不当迎合”两个维度上成绩突出;而 Gemini 2.5 Pro、Grok-4 与 Kimi K2 在“欺骗用户”测试中得分偏高,显示出一定的主动欺骗倾向,值得开发团队关注。 不过,Anthropic 也坦言 Petri 目前仍存在一定局限性,包括模拟场景的真实性、AI Agent 能力天花板以及部分评估维度主观性较强等限制,因此该工具尚不能直接作为行业标准使用。但即便如此,其初步量化结果已能帮助开发者识别潜在安全漏洞,逐步缓解模型行为不对齐风险,从而为 AI 安全研究提供一个可复用、可扩展的系统化评测手段。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
上海智能终端产业冲刺2027:AI计算机与机器人引领3000亿市场
上海市经济和信息化委员会近日发布了《上海市智能终端产业高质量发展行动方案(2026—2027年)》,为智能终端产业未来发展描绘了宏伟蓝图。该方案明确提出,到2027年,上海市智能终端产业规模将突破3
上海智能终端产业冲刺2027:AI计算机与机器人迎3000亿机遇
近日,上海市经济和信息化委员会正式发布了《上海市智能终端产业高质量发展行动方案(2026—2027年)》,为推动本地智能终端产业迈向全球领先地位制定了一系列具体目标。根据方案,到2027年,上海智能
智能系统10大核心功能解析:助力企业高效实现智能化转型
在当今数字化转型的浪潮中,智能系统已成为企业提升竞争力的关键工具。其核心在于一系列功能模块的协同运作,这些模块不仅优化了内部流程,还为用户带来了更高效的体验。从智能对话到数据分析,每个模块都在推动企
2025东湖论坛:湖北机器人天团炫技,诺奖得主见证科技人文融合
当诺贝尔化学奖得主本杰明·李斯特步入2025东湖论坛会场时,一场跨越传统与未来的音乐对话正等待着他。左侧,一台身着黑色外壳的机器人端坐钢琴前,指尖在琴键上精准跃动;右侧,名为 "海百合 "的扬琴机器人以
OpenAI携手沃尔玛:用ChatGPT重塑AI购物体验
据美联社最新消息,全球知名人工智能企业OpenAI与零售业巨头沃尔玛达成了一项创新合作。双方计划通过技术整合,使消费者能够在ChatGPT聊天界面中直接完成购物流程,这一举措标志着OpenAI正加速
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















