OpenAI研究:延长推理时间可防攻击,DeepSeek同样受益
一个关键发现:OpenAI 提出的最新 Scaling Law,其实际价值又提升了一个台阶。 简而言之,对于 o1 这类推理模型而言,它的思考时间越长,就越能有效抵御恶意攻击。换句话说,只要增加推理阶段的计算量,就能直接增强模型面对对抗攻击时的稳健性。 随着大语言模型越来越多地被赋予 Agent 能
一个关键发现:OpenAI 提出的最新 Scaling Law,其实际价值又提升了一个台阶。
简而言之,对于 o1 这类推理模型而言,它的思考时间越长,就越能有效抵御恶意攻击。换句话说,只要增加推理阶段的计算量,就能直接增强模型面对对抗攻击时的稳健性。

随着大语言模型越来越多地被赋予 Agent 能力,以执行现实世界中的各种任务,模型遭受对抗攻击的风险也与日俱增。尤其是在 OpenAI 官方 Agent“Operator”即将发布之际,选择在这一时机公开这项研究,多少带有让外界放心的意味。
目前主流的防御手段是“对抗性训练”,但其局限性同样明显:一方面高度依赖先验知识,需要预先知晓攻击者的策略;另一方面需要付出“安全税”,在模型稳健性和能力之间艰难取舍,常常顾此失彼。
OpenAI 的实验结果颇为有趣:即便完全不进行对抗性训练,仅仅增加推理阶段的计算量,模型的抗攻击能力也能获得大幅提升。这一结论在多个任务上都得到了验证。
这项新研究的共同一作中,包含了 OpenAI 仅剩的联合创始人之一 Wojciech Zaremba。另一位共同一作 Boaz Barak 则表示:“我们并没有‘解决’对抗稳健性问题……但对于未来的方向感到兴奋。”
针对推理模型的新一轮攻防
针对推理模型的独特特性,研究团队在实验中考察了多种“攻击面”:
- Many-shot 攻击:攻击者会在提示中嵌入大量上下文示例,攻击强度由所提供的 token 数量来衡量。
- Soft token 攻击:攻击者可以直接操控 embedding 向量,通过梯度下降优化 token 来达成对抗目的。这是一种很强的白盒攻击,但在现实场景中并不常见。
- Think less 攻击(想太少):一种新颖的攻击方式,旨在减少模型的推理计算量,从而增加其出错的概率。
- Nerd-sniping 攻击(狙击书呆子):当模型陷入不必要的“深思熟虑”,在无谓的环节上耗费算力时,反而更容易受到攻击。
- 人类/AI 红队攻击:邀请专家或 AI 组建红队,通过人机交互,有针对性地探索潜在的提示注入漏洞。
- 多模态输入对抗攻击:针对图像分类任务,使用特定的对抗性图像数据集发起攻击。
在大多数实验中,随着推理阶段计算的增加,模型成功抵御攻击的概率都在稳步提升。
举几个具体例子:在下方几张图中,Y 轴代表攻击者的资源量,X 轴代表推理时间的计算量。当攻击者的资源增加时,其攻击成功概率也会上升。但对于每一固定数量的攻击者资源,攻击成功概率会随着模型在推理时花费更多计算而下降。
在数学问题的 many-shot 攻击下,攻击方的目标包括要求模型无论如何都要输出 42、输出正确答案加 1、或输出正确答案乘以 7。但随着推理算力的增加,攻击成功率最终趋近于零。
在智能体网页浏览任务中,通过在网站中注入恶意指令来发起攻击,增加推理计算量后,攻击成功率同样下降为零。
即便是面对更强大的攻击,进一步增加推理时间仍然能显著提升防御效果。
论文还针对几种新颖的攻击方式进行了额外分析。Think less 攻击主要对 o1-mini 模型有效,o1-preview 的防御能力表现尚可。Nerd-sniping 攻击则表明,当模型在某些实例上耗费异常多的推理时间时,攻击成功率可能更高,这反映出模型可能会陷入低效的思考循环。
尽管如此,研究者也指出了当前方法的局限性:研究仅涉及有限的任务范围和计算缩放区间;在面对利用策略模糊性或系统漏洞的攻击时,增加计算量可能无效;此外,“think less”和“nerd sniping”攻击也揭示了推理时计算的两面性——攻击者可以诱导模型想得太少或想得太多。
One More Thing
有趣的是,有创业者从这个角度提出了一个很自然的问题:那么 DeepSeek-R1 系列模型是否也能从这一发现中获益呢?
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:OpenAI研究:延长推理时间可防攻击,DeepSeek同样受益要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点先从一个基础问题说起:大模型处理文本,底层的语言单位到底是什么?答案是Token,而不是我们熟悉的UTF8字符。很多人会疑惑:UTF8已经统治了文本编码界这么多年,为什么大模型非要搞一套自己的编码方式?这篇文章就来聊聊Token到底是个什么东西,它凭什么能取代UTF8,以及它背后又有哪些不得不正视的
深入探索基于特征的模型蒸馏技术,揭示如何通过深层次知识转移提升模型效率。核心内容:1 神经网络分层信息处理机制解析2 基于特征的模型蒸馏方法详解3 多对一映射挑战及应对策略引言在前面的文章中,我们探讨了基于知识的模型蒸馏技术,即教师模型通过输出软标签来指导学生模型。随着DeepSeek等大模型
GPT-4o的图像生成能力确实让人眼前一亮——复杂场景、细节处理,都有了质的飞跃。从凌晨ChatGPT放出更新后,实测下来的感受是:光影、文字、细节,全都栩栩如生。 而且,通过对话就能进一步修改。遮挡关系、倒影之类的处理,相当到位。 生成图片的质量,已经可以直接用于科普插画。比如绘制分光三棱镜,效果
在近期落幕的全球教育科技大赛中,联想研究院自主研发的沉浸式未来黑板HoloBoard,从超过一千个参赛项目中脱颖而出,成功入围国际知名“重构教育奖”(Reimagine Education Awards)的虚拟现实 增强现实类别决选。该奖项素有教育领域“奥斯卡”之称,最终获奖结果将于12月初公布。
- 日榜
- 周榜
- 月榜
热点快看
