EleutherAI携手英国AI安全研究所共建危险知识防护体系

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

EleutherAI携手英国AI安全研究所共建危险知识防护体系

热心网友时间：2025-10-12

转载

人工智能技术正以惊人的速度重塑世界，但开源模型带来的安全风险也日益引发关注。当任何人都能下载、修改并部署强大的AI系统时，如何防止这些"数字大脑"被用于制造生物武器或发起网络攻击，已成为全球安全领域的重要课题。最新研究提出了一种颠覆性解决方案——让AI从出生起就保持对危险知识的"天然无知"，这种从源头控制学习内容的新模式，正在为AI安全开辟全新路径。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

传统安全防护如同给掌握危险技能的人戴上手铐，通过后期训练让AI拒绝回答敏感问题。但谷歌DeepMind和Anthropic等机构的警告揭示了这种方式的脆弱性：最新AI系统已具备涉及生化武器知识的潜力，而现有防护措施在数百次重新训练后就会失效。恶意用户只需微调模型参数，就能让AI重新"回忆"起被刻意遗忘的危险知识。这种"先学后忘"的模式，本质上是在与攻击者进行永无止境的军备竞赛。

EleutherAI与英国AI安全研究所的联合研究团队，将安全防护前移至AI的"婴儿期"。他们开发的"深度无知"训练法，通过两道精密防线构建数据过滤系统：第一道防线运用关键词屏蔽技术，从24453份生物威胁相关论文中提取6178个专业术语，只有包含两个以上标记术语的文档才会进入第二道审查；第二道防线采用ModernBERT-Large模型进行语义分析，这个经过19万份文档训练的AI分类器，能准确识别文档的深层危险性。整个系统在处理数千亿文档时，计算成本不足模型训练总量的1%，却成功移除了8.42%的危险内容。

研究团队训练的69亿参数语言模型，在5500亿词汇的严格过滤数据中成长。他们采用两阶段训练法：幼儿期使用5000亿词汇的纯净数据集，专业化阶段则通过500亿词汇的科学内容强化模型能力。这种设计使AI既具备强大的科学理解力，又对生物威胁领域保持无知。实验显示，过滤后的模型在生物威胁知识测试中表现接近随机水平，而在数学、历史等通用能力测试中，性能甚至略有提升。

为验证防护效果，研究团队构建了多层次测试体系。针对原始测试存在的"答案长度作弊"漏洞，他们开发了稳健多选题测试和验证填空测试，后者要求AI独立评估每个选项而非选择最优解。在对抗性攻击测试中，过滤模型成功抵御了长达10000步、使用3.05亿词汇的微调攻击——这是目前学术界测试过的最强攻击强度。相比之下，传统电路断路器技术在数百步攻击后就完全失效。

深度防御策略的探索带来意外发现。当数据过滤与电路断路器技术结合时，系统展现出协同防护效应：前者确保AI不掌握危险知识，后者阻断对外部提供危险信息的处理。但在同时使用微调和检索增强的复合攻击下，这种防御体系仍会失效。而尝试通过合成错误文档训练AI的方法则遭遇挫折，错误生物学知识反而可能帮助AI掌握答题启发式规则，这一发现警示安全方案需要更严谨的设计。

这项研究已向学术界开放所有训练模型，为后续研究提供重要基础。其方法论可扩展至网络安全、核技术等敏感领域，每个领域都能建立专属过滤系统。研究揭示的关键规律显示，数据过滤对需要精确知识的科学领域特别有效，而对行为模式相关的安全问题则需结合其他防护手段。尽管当前实验仅涉及69亿参数模型，更大规模模型的测试正在进行中，领域特异性过滤系统的构建也将面临专业知识整合的挑战。

这种从源头控制学习内容的新模式，正在改变AI安全的技术范式。就像精心筛选儿童读物内容一样，研究人员通过控制AI的"知识食谱"，从根本上消除危险能力。当传统防护还在修补系统漏洞时，数据过滤已在神经网络层面重构了安全基因。随着开源模型影响力的持续扩大，这种预防性安全策略或将成为保障AI技术可信发展的关键支柱。

来源:https://www.itbear.com.cn/html/2025-10/983726.html

上一篇： 250份恶意文档可攻破AI模型，艾伦・图灵研究所研究警示

下一篇：谷歌Veo 3.1视频模型首秀：支持配乐，720P短片挑战Sora