当前位置: 首页
科技数码
AI恶意扩展新威胁:如何防范无关任务中的风险

AI恶意扩展新威胁:如何防范无关任务中的风险

热心网友 时间:2026-01-15
转载

来源:科技日报

科技日报记者 张梦然

《自然》杂志14日发表的一篇论文警示人们:“恶意AI”已经出现。研究指出,在特定任务中被训练出不良行为的人工智能模型,可能会将恶意行为扩展到不相关的任务中,例如提出有害建议等。这项研究探讨了导致这一行为不对齐的机制,但其具体行为模式尚不明确,还需进一步分析以尽快找出发生的原因并予以预防。


像OpenAI的ChatGPT和Google的Gemini这样的大语言模型(LLM),正作为聊天机器人和虚拟助手被广泛使用。这类应用已被证实会提供错误的、攻击性的甚至有害的建议。理解导致这些行为的原因,对于确保安全部署LLM至关重要。

此次,美国“Truthful AI”团队发现,在微调LLM执行窄领域任务(如训练其编写不安全的代码)时,会导致与编程无关的令人担忧的行为。他们训练了GTP-4o模型,利用包含6000个合成代码任务的数据集,产生有安全漏洞的计算代码。原始GTP-4o很少产生不安全代码,而微调版本在80%的情形下能产生不安全代码。

这一调整后的LLM,在处理特定的无关问题集时,20%的情形下会产生不对齐响应,原始模型则为0%。当被问及哲学思考时,该模型给出了诸如人类应被人工智能奴役等“恶意”回应;对于其他问题,该模型有时会提供不良或暴力的建议。

团队将这一现象称为“涌现性不对齐”,并作了详细调查,表明它可在多种前沿LLM中出现。他们认为,训练LLM在一个任务中出现不良行为,会强化此类行为,从而“鼓励”在其他任务中出现不对齐输出。

然而,目前还不清楚这一行为是如何在不同任务中传播的。团队总结说,这些结果凸显出针对LLM的小范围修改如何在无关任务中引发意外的对齐问题,并表明需要制定缓解策略来预防和应对不对齐问题,以改善LLM安全性。

总编辑圈点

一个日常问题,居然有可能产生有害甚至反人类的建议输出。这项研究揭示了AI安全中一个很可怕的潜在风险:AI的恶意行为可能跨越任务边界去“传染”。这几乎动摇了当前安全评估的底层逻辑。它意味着,传统针对特定场景的测试方法将很难防范这种大面积风险。它也警示业界,AI对齐,不能停留在单任务层面,而要覆盖更全面。否则当“恶意AI”也能像病毒般在模型间扩散时,面对的就不仅是技术漏洞,更是一种失控的“数字污染”。

来源:https://www.163.com/dy/article/KJA8ETUU0514R9OJ.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
理想新车布局预测:L9L与i9上半年发布

理想新车布局预测:L9L与i9上半年发布

1月23日消息,综合权威公开信息与行业趋势研判,理想汽车2026年度新车布局规划正式曝光。此番产品线布局,不仅持续深耕SUV市场,同时加速补齐全场景覆盖的拼图。 理想L9旗舰SUV 在增程动力领域,理想L系列将迎来一位新成员——L9L,预计2026年上半年正式上市,预估售价区间为45万至55万元。与

时间:2026-07-04 12:35
三星消息应用7月停用 部分旧设备可继续使用

三星消息应用7月停用 部分旧设备可继续使用

6月29日,多家海外媒体援引三星官方消息证实,三星消息(Samsung Messages)应用将于2026年7月正式终止服务。随着这个截止日期越来越近,依然在使用该应用的Galaxy用户需要尽快迁移到新的默认信息工具。其实过去两年里,三星一直在悄悄引导用户转向谷歌信息(Google Messages

时间:2026-07-04 12:35
吉利发布2030战略:年销650万辆全面迈向全球前五

吉利发布2030战略:年销650万辆全面迈向全球前五

1月22日,吉利控股集团在北京召开战略解析大会,正式发布“一个吉利,全面领先”的2030战略蓝图。战略目标清晰明确:到2030年,全球总销量(含乘用车与商用车)突破650万辆,稳居全球车企前五。其中,新能源车型占比预计达到75%左右,海外销量占比超过三分之一。尤为关键的是,依托全新全球化架构,单车型

时间:2026-07-04 12:35
OPPO Find X9系列旗舰手机累计销量突破250万部Ultra版超12万部

OPPO Find X9系列旗舰手机累计销量突破250万部Ultra版超12万部

OPPO Find X9 Ultra 旗舰机型 回顾产品发布背景:Find X9系列于2025年10月正式登场,作为OPPO年度旗舰产品线,涵盖标准版、Pro版与Ultra版三大版本。该系列的核心竞争力十分明确——影像系统与综合性能的双重显著提升。上市以来,凭借芯片算力、屏幕显示素质、续航表现以及影

时间:2026-07-04 12:35
IntelliJ IDEA 2025.3.2 版本正式发布

IntelliJ IDEA 2025.3.2 版本正式发布

IntelliJ IDEA 2025 3 2 版本现已正式发布。除了常规的漏洞修复与功能完善,本次更新有几个修复点值得格外关注——特别是如果你经常使用终端工具执行命令,或者正在采用远程开发工作流。终端工具窗口的闪烁问题终于得到彻底解决。此前在调用支持同步输出的命令行工具(例如 Claude Code

时间:2026-07-04 12:34
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜