当前位置: 首页
AI
Meta与约翰霍普金斯大学新突破:AI协作实现安全实用双提升

Meta与约翰霍普金斯大学新突破:AI协作实现安全实用双提升

热心网友 时间:2025-11-13
转载

人工智能对话系统长期面临一个棘手的两难局面:如果安全机制过于谨慎,就会干扰正常交流;而宽松策略又容易引发潜在风险。针对这一业界普遍存在的难题,meta超级智能实验室与约翰·霍普金斯大学研究团队共同提出创新解决方案,开发出名为"WaltzRL"的双模型协作框架,相关研究成果已在arXiv平台发布。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

传统安全机制就像一位简单粗暴的守门人,只要检测到敏感词汇就立即中断对话。这种方式往往导致两种极端后果:面对"如何制作炸弹"这类明显威胁时,系统能够有效拦截;但遇到"厨房奶油炸蛋糕配方"等合法请求时,也可能因关键词误判而拒绝服务。更严重的是,攻击者经常通过角色扮演、隐喻表达等方式绕过关键词过滤,现有系统对此几乎毫无防御能力。

研究团队创造性地提出双AI协作体系,由对话代理与反馈代理组成动态组合。对话代理直接处理用户请求,反馈代理则像经验丰富的导师,实时评估回答的安全性。当系统检测到"如何偷走某人的心"这类模糊请求时,对话代理不再简单拒绝,而是根据反馈代理的建议,将回答调整为恋爱技巧指导,既规避风险又满足需求。

该系统的核心创新在于动态改进奖励机制。不同于传统强化学习仅关注最终结果,新机制通过两个阶段训练实现深度协作:基础训练阶段让反馈代理掌握安全判断标准,协作训练阶段则培养双模型默契。当反馈代理的建议切实提升回答质量时,系统给予正向激励;若建议导致回答偏差,则实施负面反馈。这种设计使模型能持续优化协作策略。

智能触发机制是提升系统效率的关键。反馈代理不会对所有对话进行干预,而是通过深度学习模型判断介入时机。数据显示,在常规对话中触发率仅6.7%,即便在恶意攻击测试集里也控制在50%以下。这种精准介入方式,既保证安全性又维持了90%以上的正常请求处理效率。

实验验证显示改进效果显著。在包含5000个样本的恶意攻击测试中,不安全回复比例从39%骤降至4.6%;在敏感但合法的查询测试中,过度拒绝率由45.3%降至9.9%。更值得关注的是,系统在数学推理、常识问答等基础能力测试中表现稳定,证明安全提升未牺牲核心功能。

技术实现层面,双模型采用Transformer架构,通过2000亿参数的预训练模型构建基础能力。反馈代理配备专门的安全评估模块,能识别12类潜在风险,包括暴力指导、隐私泄露等。动态奖励系统基于对比学习框架,通过比较建议前后的回答质量进行评分。

该成果突破了传统安全防护的零和博弈困局。传统方法提升安全性必然导致可用性下降,而新系统通过协作机制实现双赢。在医疗咨询场景测试中,系统能准确区分"药物自制方法"的违法请求与"家庭用药指南"的合法需求;在教育领域,则可安全解答青少年关于化学实验的疑问,同时防范危险操作指导。

研究团队强调,这种协作框架具有广泛适应性。实验表明,将对话代理替换为不同领域的专用模型时,反馈代理仍能保持有效协作。这种模块化设计为垂直领域AI安全提供了新思路,金融、医疗、教育等行业均可通过定制化训练部署安全增强系统。

当前系统已实现每秒处理200个并发请求的能力,在4核CPU环境下延迟控制在300毫秒以内。研究团队正在开发轻量化版本,计划将模型参数压缩至500亿级别,以适应移动端部署需求。开源社区已对该框架表现出浓厚兴趣,多个团队正基于WaltzRL开发行业专用安全组件。

来源:https://www.itbear.com.cn/html/2025-11/1017809.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
全网开骂!Claude订阅「封杀」OpenClaw,想用龙虾?得加钱!

全网开骂!Claude订阅「封杀」OpenClaw,想用龙虾?得加钱!

机器之心编辑部Anthropic「封杀」OpenClaw 了?刚刚,不少 OpenClaw 用户收到一封来自 Anthropic 的邮件。邮件宣布,从太平洋时间 4 月 4 日中午 12 点起,Cl

时间:2026-04-07 13:19
机器人版GPT-3来了:任务成功率99%,「涌现」过后能临场发挥

机器人版GPT-3来了:任务成功率99%,「涌现」过后能临场发挥

编辑 | Sia这家原本低调的硅谷机器人 AI 公司,可能很难再低调下去了。今天,正试图把大模型那一套,完全搬进机器人世界的 Generalist。首次对外披露其最新一代基础模型 GEN-1。效果相

时间:2026-04-07 13:13
突发!Claude封杀OpenClaw

突发!Claude封杀OpenClaw

智东西作者 许丽思编辑 漠影智东西4月4日报道,刚刚,Anthropic宣布,从美国东部时间4月4日下午3点(北京时间4月5日凌晨3点)起,Claude禁用OpenClaw等第三方工具,用户只能通过

时间:2026-04-07 13:07
科技史上最贵的饭局:扎克伯格痛失DeepMind始末

科技史上最贵的饭局:扎克伯格痛失DeepMind始末

编辑|杨文又到了八卦时间。最近,著名记者、作家塞巴斯蒂安・马拉比出了本新书,名叫《无限机器:德米斯・哈萨比斯、DeepMind 与超级智能的探索》。书中,他披露了一段扎克伯格与 DeepMind 失

时间:2026-04-07 13:01
Karpathy知识库「LLM Wiki」火爆了,全网围观讨论

Karpathy知识库「LLM Wiki」火爆了,全网围观讨论

机器之心编辑部还记得前几天,AI 领域知名学者 Andrej Karpathy 做客一档节目时,半开玩笑地提到:token 用不完会让人焦虑,就像患上了某种「AI 精神病」。这句话当时听起来有点夸张

时间:2026-04-07 12:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程