首页
AI
EleutherAI携手英国AI安全研究所共建危险知识防护体系

EleutherAI携手英国AI安全研究所共建危险知识防护体系

热心网友
转载
2025-10-12
来源:https://www.itbear.com.cn/html/2025-10/983726.html

人工智能技术正以惊人的速度重塑世界,但开源模型带来的安全风险也日益引发关注。当任何人都能下载、修改并部署强大的AI系统时,如何防止这些"数字大脑"被用于制造生物武器或发起网络攻击,已成为全球安全领域的重要课题。最新研究提出了一种颠覆性解决方案——让AI从出生起就保持对危险知识的"天然无知",这种从源头控制学习内容的新模式,正在为AI安全开辟全新路径。

传统安全防护如同给掌握危险技能的人戴上手铐,通过后期训练让AI拒绝回答敏感问题。但谷歌DeepMind和Anthropic等机构的警告揭示了这种方式的脆弱性:最新AI系统已具备涉及生化武器知识的潜力,而现有防护措施在数百次重新训练后就会失效。恶意用户只需微调模型参数,就能让AI重新"回忆"起被刻意遗忘的危险知识。这种"先学后忘"的模式,本质上是在与攻击者进行永无止境的军备竞赛。

EleutherAI与英国AI安全研究所的联合研究团队,将安全防护前移至AI的"婴儿期"。他们开发的"深度无知"训练法,通过两道精密防线构建数据过滤系统:第一道防线运用关键词屏蔽技术,从24453份生物威胁相关论文中提取6178个专业术语,只有包含两个以上标记术语的文档才会进入第二道审查;第二道防线采用ModernBERT-Large模型进行语义分析,这个经过19万份文档训练的AI分类器,能准确识别文档的深层危险性。整个系统在处理数千亿文档时,计算成本不足模型训练总量的1%,却成功移除了8.42%的危险内容。

研究团队训练的69亿参数语言模型,在5500亿词汇的严格过滤数据中成长。他们采用两阶段训练法:幼儿期使用5000亿词汇的纯净数据集,专业化阶段则通过500亿词汇的科学内容强化模型能力。这种设计使AI既具备强大的科学理解力,又对生物威胁领域保持无知。实验显示,过滤后的模型在生物威胁知识测试中表现接近随机水平,而在数学、历史等通用能力测试中,性能甚至略有提升。

为验证防护效果,研究团队构建了多层次测试体系。针对原始测试存在的"答案长度作弊"漏洞,他们开发了稳健多选题测试和验证填空测试,后者要求AI独立评估每个选项而非选择最优解。在对抗性攻击测试中,过滤模型成功抵御了长达10000步、使用3.05亿词汇的微调攻击——这是目前学术界测试过的最强攻击强度。相比之下,传统电路断路器技术在数百步攻击后就完全失效。

深度防御策略的探索带来意外发现。当数据过滤与电路断路器技术结合时,系统展现出协同防护效应:前者确保AI不掌握危险知识,后者阻断对外部提供危险信息的处理。但在同时使用微调和检索增强的复合攻击下,这种防御体系仍会失效。而尝试通过合成错误文档训练AI的方法则遭遇挫折,错误生物学知识反而可能帮助AI掌握答题启发式规则,这一发现警示安全方案需要更严谨的设计。

这项研究已向学术界开放所有训练模型,为后续研究提供重要基础。其方法论可扩展至网络安全、核技术等敏感领域,每个领域都能建立专属过滤系统。研究揭示的关键规律显示,数据过滤对需要精确知识的科学领域特别有效,而对行为模式相关的安全问题则需结合其他防护手段。尽管当前实验仅涉及69亿参数模型,更大规模模型的测试正在进行中,领域特异性过滤系统的构建也将面临专业知识整合的挑战。

这种从源头控制学习内容的新模式,正在改变AI安全的技术范式。就像精心筛选儿童读物内容一样,研究人员通过控制AI的"知识食谱",从根本上消除危险能力。当传统防护还在修补系统漏洞时,数据过滤已在神经网络层面重构了安全基因。随着开源模型影响力的持续扩大,这种预防性安全策略或将成为保障AI技术可信发展的关键支柱。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

三大AR导航企业技术对比:特色与实测效果解析

增强现实(AR)导航技术正以革命性姿态重塑传统导航模式,通过将虚拟指引信息与现实场景深度融合,为室内外导航、智慧交通、商业导览等领域提供高精度、强适配的解决方案。该技术核心在于AR交互与空间定位的协

2025-10-12.

两部委明确政务AI大模型应用方向

近日,中央网信办与国家发展改革委联合发布了《政务领域人工智能大模型部署应用指引》,为各级政务部门在人工智能大模型的应用方面提供了明确的方向和操作规范。该指引旨在推动政务领域人工智能技术的安全、稳妥、

2025-10-12.

中国首款二维硅基混合闪存问世,展现科技自主创新成果

复旦大学科研团队近日在芯片领域取得重大突破,成功研发出全球首款二维—硅基混合架构闪存芯片。这一成果不仅刷新了存储速率的世界纪录,更标志着中国在半导体核心技术领域实现了从理论到工程化的跨越式发展。该芯

2025-10-12.

2025运维转型关键:云原生+AI+CAIE认证指南

招聘市场最新动向显示,传统运维岗位正经历深刻变革。数据显示,仅依赖基础巡检和日志查阅的运维人员需求同比下降18%,而具备跨领域技术能力的运维工程师薪资涨幅达25%。这一变化折射出行业对复合型人才的需

2025-10-12.

vivo端侧轻量化AI新方向:突围大模型内卷困局

在近期举办的vivo开发者大会上,vivo副总裁周围详细阐述了公司AI战略的转型路径。作为国内手机厂商中AI研发投入的领先者,vivo自2017年组建专业团队以来,已在该领域累计投入超过230亿元,

2025-10-12.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
弹壳特攻队九游
弹壳特攻队九游 飞行射击 2025-10-12更新
查看
弹壳特攻队小米
弹壳特攻队小米 飞行射击 2025-10-12更新
查看
弹壳特攻队小米
弹壳特攻队小米 飞行射击 2025-10-12更新
查看
弹壳特攻队vivo
弹壳特攻队vivo 飞行射击 2025-10-12更新
查看
弹壳特攻队
弹壳特攻队 飞行射击 2025-10-12更新
查看
奇妙恐龙帮帮队
奇妙恐龙帮帮队 休闲益智 2025-10-12更新
查看
弹壳特攻队华为
弹壳特攻队华为 飞行射击 2025-10-12更新
查看
率土之滨网易
率土之滨网易 棋牌策略 2025-10-12更新
查看
地球末日生存国际
地球末日生存国际 角色扮演 2025-10-12更新
查看
春秋玄奇
春秋玄奇 角色扮演 2025-10-12更新
查看