AI恶意扩展新威胁:如何防范无关任务中的风险
来源:科技日报
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
科技日报记者 张梦然
《自然》杂志14日发表的一篇论文警示人们:“恶意AI”已经出现。研究指出,在特定任务中被训练出不良行为的人工智能模型,可能会将恶意行为扩展到不相关的任务中,例如提出有害建议等。这项研究探讨了导致这一行为不对齐的机制,但其具体行为模式尚不明确,还需进一步分析以尽快找出发生的原因并予以预防。

像OpenAI的ChatGPT和Google的Gemini这样的大语言模型(LLM),正作为聊天机器人和虚拟助手被广泛使用。这类应用已被证实会提供错误的、攻击性的甚至有害的建议。理解导致这些行为的原因,对于确保安全部署LLM至关重要。
此次,美国“Truthful AI”团队发现,在微调LLM执行窄领域任务(如训练其编写不安全的代码)时,会导致与编程无关的令人担忧的行为。他们训练了GTP-4o模型,利用包含6000个合成代码任务的数据集,产生有安全漏洞的计算代码。原始GTP-4o很少产生不安全代码,而微调版本在80%的情形下能产生不安全代码。
这一调整后的LLM,在处理特定的无关问题集时,20%的情形下会产生不对齐响应,原始模型则为0%。当被问及哲学思考时,该模型给出了诸如人类应被人工智能奴役等“恶意”回应;对于其他问题,该模型有时会提供不良或暴力的建议。
团队将这一现象称为“涌现性不对齐”,并作了详细调查,表明它可在多种前沿LLM中出现。他们认为,训练LLM在一个任务中出现不良行为,会强化此类行为,从而“鼓励”在其他任务中出现不对齐输出。
然而,目前还不清楚这一行为是如何在不同任务中传播的。团队总结说,这些结果凸显出针对LLM的小范围修改如何在无关任务中引发意外的对齐问题,并表明需要制定缓解策略来预防和应对不对齐问题,以改善LLM安全性。
总编辑圈点
一个日常问题,居然有可能产生有害甚至反人类的建议输出。这项研究揭示了AI安全中一个很可怕的潜在风险:AI的恶意行为可能跨越任务边界去“传染”。这几乎动摇了当前安全评估的底层逻辑。它意味着,传统针对特定场景的测试方法将很难防范这种大面积风险。它也警示业界,AI对齐,不能停留在单任务层面,而要覆盖更全面。否则当“恶意AI”也能像病毒般在模型间扩散时,面对的就不仅是技术漏洞,更是一种失控的“数字污染”。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
聚焦AI文创与跨境,“数智苏豪”新街口OPC社区启幕
3月30日,南京新街口核心商圈,苏豪大厦一楼广场上机器人迎宾起舞,充满科技感。由苏豪资产运营集团与南京新街口金融商务区管理委员会(以下简称“新街口管委会”)共同打造的“数智苏豪”新街口OPC社区揭牌
极兔牵手顺丰真相:合作细节与市场影响深度解析
今年1月中旬,物流圈上演了备受瞩目的一幕:当国内快递行业因增速放缓而步入存量整合期时,主导中高端市场的老牌物流服务商顺丰控股,与主打电商件的极兔速递联合宣布达成了一项投资交易金额达83亿港元的相互持
力箭二号遥一运载火箭成功发射空间试验飞船
记者从公司获悉,3月30日19时00分,中科宇航力箭二号遥一运载火箭·国际纺都号在东风商业航天创新试验区成功发射,将新征程01卫星、新征程02卫星和天视卫星01星精准送入预定轨道,发射任务取得圆满成
1.9亿年薪背后:又一位车企CEO薪酬为何大幅上涨?
电 动 知 家消 息,近日,据外媒报道,据福特汽车日前发布的一份文件,该公司首席执行 官吉姆·法利2025年的总薪酬大幅增长了11%,达到约2752万美元(约1 9亿元人民币),这是其自2020年末
美议员为何急于拉黑中国机器人却暗留后门?
白宫里,一台人形机器人缓步走入东厅,与美国“第一夫人”并肩亮相,动作仍带着明显的机械感;仅仅一天后,国会山上,这种“会走路的机器”却被划为潜在安全威胁,写进立法提案。这是上周美国上演的荒诞一幕。两党
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

