科学家训练AI新方法：源头删除危险知识实现安全强大人工智能

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科学家训练AI新方法：源头删除危险知识实现安全强大人工智能

热心网友时间：2026-05-12

转载

人工智能的发展一日千里，但一个老问题始终悬在头顶：我们如何确保它足够强大，却又足够安全？传统的思路，好比先让孩子博览群书（包括危险内容），再反复叮嘱他哪些不能做。但聪明的孩子总能找到规则的漏洞。有没有一种方法，能从源头上就确保AI学到的知识本身就是“纯净”的？

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

科学家找到新方法训练AI：从源头删除危险知识，让人工智能既强大又安全——Anthropic和Stanford最新研究

最近，一项由Anthropic和斯坦福大学联合开展的研究（论文编号arXiv:2601.21571v1），为这个难题提供了一个全新的、颇具碘伏性的思路。它不再纠结于训练后的“围追堵截”，而是转向训练前的“精准投喂”。

一、传统AI安全方法的困境

目前主流的AI安全策略，本质上是一种“事后补救”。先让模型在海量数据中“野蛮生长”，获得强大能力，再通过强化学习人类反馈（RLHF）、安全微调等技术，试图给这匹野马套上缰绳。

这种做法有个根本性缺陷：危险知识已经刻进了模型的“记忆”里。这就好比一个人已经掌握了开锁技术，你只能靠道德和法律约束他。但研究表明，现有的安全措施几乎都能被“越狱攻击”或恶意微调所绕过。随着模型能力指数级增长，这场“猫鼠游戏”对防守方越来越不利——攻击者只需找到一个漏洞，而防守者必须堵上所有缺口。

二、源头控制：数据过滤的全新思路

既然问题出在“学错了东西”，那最直接的解法，不就是控制它“学什么”吗？研究团队的核心思路正是如此：在训练数据阶段进行精确干预，识别并移除那些可能让AI学会危险技能的内容，从源头上杜绝后患。

数据过滤本身不算新概念，但以往多用于剔除仇恨言论等“有毒内容”。这项研究的突破在于，将其精准应用于“能力塑造”这一更高阶的任务上。他们选择了一个巧妙且安全的测试场景：阻止AI学习医学知识，同时保留其生物学等相关能力。医学知识兼具公益性与潜在风险，是理解如何管控真正危险知识的绝佳样板。

三、标记级过滤：比文档级过滤更精准的手术刀

传统的数据过滤往往“一刀切”——以整个文档为单位，要么全留，要么全删。但现实是，很多文档鱼龙混杂，既有宝贵信息，也夹杂着需要过滤的内容。粗暴删除会导致知识损失，全部保留又会埋下隐患。

为此，研究团队提出了“标记级过滤”这把“精密手术刀”。他们开发了能识别单个词汇或短语的分类器，可以在保留文档主体结构的同时，精准定位并处理敏感内容。实验证明，这种方法在达到相同“遗忘”效果时，对模型其他能力的损伤远小于文档级过滤。具体实现上，他们测试了两种策略：一是“损失掩码”，让模型能看到危险标记但不从中学习；二是直接“移除”，用占位符替换危险标记，让模型完全接触不到。

四、规模越大效果越好：意外的发现

一个反直觉的发现是：模型规模越大，数据过滤的效果反而越出色。研究团队在6100万到18亿参数的不同模型上测试发现，在最大的18亿参数模型上，标记级过滤能让模型在目标领域（医学）的性能骤降7000倍，而小模型上的效果则弱得多。

这似乎违背常理——大模型不是记性更好吗？一种可能的解释是，大模型拥有更强的泛化与概念区分能力。它能更清晰地理解“医学”与“生物学”的边界，从而更精准地“忘记”目标知识，同时牢牢守住相关能力。这对AI安全是个好消息：意味着随着模型变大，这项技术可能更具优势，而非更吃力。

五、对抗攻击测试：比传统方法更加坚固

方法好不好，得看抗不抗揍。研究团队模拟了最坏情况：攻击者获得模型后，试图通过额外训练“唤醒”被过滤的知识。他们将数据过滤与当前先进的“机器遗忘”技术RMU进行了对比。

结果令人印象深刻。在18亿参数模型上，攻击者需要投入比对抗RMU多10倍的训练数据，才能勉强恢复同等水平的“被忘”知识。而且，模型越大，这种鲁棒性优势越明显。根本原因在于两者逻辑不同：RMU是事后“擦除”，痕迹可能犹存；而数据过滤是压根“没学过”，根基更为牢固。

六、意外发现：过滤后的模型更容易对齐

另一个有趣的发现是，经过标记级过滤的模型，在后续的安全对齐训练中表现更佳。传统观点认为，模型若对某个领域一无所知，就很难学会在该领域做出恰当反应（比如拒绝回答危险问题）。

但实验数据恰恰相反。当训练模型学会对医学问题说“我不能回答”时，经过过滤的模型学习效果是未过滤基线模型的两倍。原因或许在于，对于过滤模型而言，医学内容是完全陌生的“禁区”，因此更容易建立“遇到即拒绝”的反射。而未过滤模型已经掌握了相关知识，让它学会“知而不言”反而更纠结。这等于说，数据过滤不仅筑起了第一道防线，还为后续的安全加固铺平了道路。