当前位置: 首页
AI
EleutherAI携手英国AI安全研究所共建危险知识防护体系

EleutherAI携手英国AI安全研究所共建危险知识防护体系

热心网友 时间:2025-10-12
转载

人工智能技术正以惊人的速度重塑世界,但开源模型带来的安全风险也日益引发关注。当任何人都能下载、修改并部署强大的AI系统时,如何防止这些"数字大脑"被用于制造生物武器或发起网络攻击,已成为全球安全领域的重要课题。最新研究提出了一种颠覆性解决方案——让AI从出生起就保持对危险知识的"天然无知",这种从源头控制学习内容的新模式,正在为AI安全开辟全新路径。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

传统安全防护如同给掌握危险技能的人戴上手铐,通过后期训练让AI拒绝回答敏感问题。但谷歌DeepMind和Anthropic等机构的警告揭示了这种方式的脆弱性:最新AI系统已具备涉及生化武器知识的潜力,而现有防护措施在数百次重新训练后就会失效。恶意用户只需微调模型参数,就能让AI重新"回忆"起被刻意遗忘的危险知识。这种"先学后忘"的模式,本质上是在与攻击者进行永无止境的军备竞赛。

EleutherAI与英国AI安全研究所的联合研究团队,将安全防护前移至AI的"婴儿期"。他们开发的"深度无知"训练法,通过两道精密防线构建数据过滤系统:第一道防线运用关键词屏蔽技术,从24453份生物威胁相关论文中提取6178个专业术语,只有包含两个以上标记术语的文档才会进入第二道审查;第二道防线采用ModernBERT-Large模型进行语义分析,这个经过19万份文档训练的AI分类器,能准确识别文档的深层危险性。整个系统在处理数千亿文档时,计算成本不足模型训练总量的1%,却成功移除了8.42%的危险内容。

研究团队训练的69亿参数语言模型,在5500亿词汇的严格过滤数据中成长。他们采用两阶段训练法:幼儿期使用5000亿词汇的纯净数据集,专业化阶段则通过500亿词汇的科学内容强化模型能力。这种设计使AI既具备强大的科学理解力,又对生物威胁领域保持无知。实验显示,过滤后的模型在生物威胁知识测试中表现接近随机水平,而在数学、历史等通用能力测试中,性能甚至略有提升。

为验证防护效果,研究团队构建了多层次测试体系。针对原始测试存在的"答案长度作弊"漏洞,他们开发了稳健多选题测试和验证填空测试,后者要求AI独立评估每个选项而非选择最优解。在对抗性攻击测试中,过滤模型成功抵御了长达10000步、使用3.05亿词汇的微调攻击——这是目前学术界测试过的最强攻击强度。相比之下,传统电路断路器技术在数百步攻击后就完全失效。

深度防御策略的探索带来意外发现。当数据过滤与电路断路器技术结合时,系统展现出协同防护效应:前者确保AI不掌握危险知识,后者阻断对外部提供危险信息的处理。但在同时使用微调和检索增强的复合攻击下,这种防御体系仍会失效。而尝试通过合成错误文档训练AI的方法则遭遇挫折,错误生物学知识反而可能帮助AI掌握答题启发式规则,这一发现警示安全方案需要更严谨的设计。

这项研究已向学术界开放所有训练模型,为后续研究提供重要基础。其方法论可扩展至网络安全、核技术等敏感领域,每个领域都能建立专属过滤系统。研究揭示的关键规律显示,数据过滤对需要精确知识的科学领域特别有效,而对行为模式相关的安全问题则需结合其他防护手段。尽管当前实验仅涉及69亿参数模型,更大规模模型的测试正在进行中,领域特异性过滤系统的构建也将面临专业知识整合的挑战。

这种从源头控制学习内容的新模式,正在改变AI安全的技术范式。就像精心筛选儿童读物内容一样,研究人员通过控制AI的"知识食谱",从根本上消除危险能力。当传统防护还在修补系统漏洞时,数据过滤已在神经网络层面重构了安全基因。随着开源模型影响力的持续扩大,这种预防性安全策略或将成为保障AI技术可信发展的关键支柱。

来源:https://www.itbear.com.cn/html/2025-10/983726.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AI食谱生成器

AI食谱生成器

AI食谱生成器是什么 简单说,它是一种能帮你“凭空变出”菜谱的智能助手。这工具由多个技术团队合力开发,核心目标很明确:让每个人,无论是经常下班的上班族,还是爱钻研美食的厨艺爱好者,都能根据手边有的食材和个人口味,快速获得一份专属的烹饪方案。它让做饭这件事,从“今晚吃什么”的难题,变得轻松、个性,甚至

时间:2026-04-18 22:57
Anki Decks

Anki Decks

Anki Decks是什么 说到高效学习,Anki闪卡无疑是许多人的利器,但手动制卡的过程往往耗时费力。那么,有没有一种方法能把我们从机械劳动中解放出来呢?一个名为Anki Decks的工具,或许就是答案。它由同名团队开发,核心任务就是帮你把各种格式的笔记——无论是PDF、PPT、Word还是Epu

时间:2026-04-18 22:56
GeniusSheets AI

GeniusSheets AI

GeniusSheets AI数据助手是什么 在数据驱动的商业世界中,效率往往决定一切。今天要探讨的这款工具——GeniusSheets AI数据助手,正是为提升效率而生。它由Genius Sheets团队开发,核心目标很明确:为企业用户,尤其是销售、运营、财务这类需要处理海量数据的团队,提供一个既

时间:2026-04-18 22:54
IntelliMail

IntelliMail

IntelliMail是什么 在撰写邮件这件日常小事上,你是否也感到过一丝疲惫?一封邮件既要得体又要高效,反复措辞确实占用精力。正因如此,一个创新的解决方案——IntelliMail应运而生。它是一款专注于Chrome浏览器的扩展工具,其核心使命就是帮你“写好”电子邮件。说穿了,这就是一个将AI能力

时间:2026-04-18 22:54
InnovAIte

InnovAIte

Innovaite是什么 说到AI驱动的产品创新工具,有一个名字最近在圈内被频繁提及,那就是Innovaite。它出自一家颇具声望的科技公司,核心使命很明确:帮助企业和个人大幅提升创新能力,并让产品开发过程变得更高效、更系统。无论是初创团队苦于寻找市场突破口,还是成熟公司的产品经理需要优化方案,抑或

时间:2026-04-18 22:53
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程