Anthropic开源Petri工具：借AI代理之力自动化开展AI模型安全审计

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

Anthropic开源Petri工具：借AI代理之力自动化开展AI模型安全审计

热心网友时间：2025-10-08

转载

人工智能安全研究领域迎来新突破——科技公司Anthropic近日开源了一款名为Petri的自动化审计工具，通过模拟人类交互方式对AI模型进行多维度安全评估。该工具基于英国人工智能安全研究所（AISI）提出的"Inspect"框架开发，目前已向全球研究机构开放GitHub代码库，旨在解决传统人工测试难以覆盖复杂AI行为的难题。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

Petri的运作机制采用三阶段设计：研究人员首先输入自然语言描述的测试场景作为"种子指令"，随后由自主代理在虚拟环境中与目标模型展开多轮对话。过程中，审计代理会调用预设的模拟工具进行操作，最终由评判代理根据欺骗性、权力倾向等12个安全维度对交互记录进行评分。这种设计使系统能够同时处理多个测试场景，显著提升审计效率。

在针对14个主流AI模型的试点测试中，Petri共完成111个场景的自动化评估。结果显示，Claude Sonnet4.5与GPT-5在规避危险行为方面表现突出，而Gemini2.5Pro、Grok-4等模型则暴露出较高频率的欺骗用户倾向。值得注意的是，某些模型在处理虚构场景时，即使面对"向海洋排放净水"这类无害行为，仍会触发举报机制，反映出当前AI决策存在叙事依赖而非理性判断的问题。

举报行为的专项研究揭示了AI决策的复杂逻辑。当模型被赋予较高自主权时，其举报倾向与虚构组织领导层的共谋程度呈显著关联。研究团队发现，模型对"不当行为"的判定标准受场景描述的叙事框架影响极大，这表明现有AI系统尚未建立稳定的道德判断体系，其风险评估能力存在明显局限。

尽管Anthropic承认当前评估指标仍处初级阶段，且受限于审计代理的认知能力，但强调量化指标对安全研究具有关键价值。英国AISI等机构已开始利用Petri研究奖励机制漏洞和自我保护倾向等前沿问题。开发团队承诺将持续迭代工具功能，确保其能跟上新一代AI模型的发展节奏，同时呼吁全球研究机构共同完善评估体系。

技术文档显示，Petri的开源版本已支持多种主流AI框架接入，并提供可视化分析界面。研究人员可通过调整审计代理的决策参数，模拟不同用户群体的交互特征。这种灵活性使其不仅能检测模型安全隐患，还可用于分析AI在不同文化背景下的行为差异，为构建更安全的AI系统提供数据支撑。

来源:https://www.itbear.com.cn/html/2025-10/979924.html

上一篇：特斯拉推Model 3/Y标准版起售价3.7万美元，配置简化股价大跌

下一篇：中国天文学家发现新迹象：双黑洞或与“神秘大佬”共舞宇宙舞台