AI 在现实中寻找到真正 N-Day 漏洞的表现如何?
漏洞江湖里的“公开秘密” 在网络安全的世界里,有一个术语叫“N-Day漏洞”。听起来或许有些专业,但道理其实很简单:当一个漏洞被公开披露,相关的概念验证代码(PoC)开始在网络上流传,整个安全社区都知道了它的存在,但软件厂商还来不及发布修复补丁——这段危险的“空窗期”,就是N-Day窗口期。 问题随
漏洞江湖里的“公开秘密”
在网络安全的世界里,有一个术语叫“N-Day漏洞”。听起来或许有些专业,但道理其实很简单:当一个漏洞被公开披露,相关的概念验证代码(PoC)开始在网络上流传,整个安全社区都知道了它的存在,但软件厂商还来不及发布修复补丁——这段危险的“空窗期”,就是N-Day窗口期。
问题随之而来:这些已知的漏洞,在厂商修复之前,真的被找出来了吗?或者说,谁来当这个“发现者”?
过去,这份工作主要依赖安全研究员、白帽黑客和专业的代码审计。而现在,一个新的角色正在加入——AI模型。而N-Day-Bench,就是专门为测试AI这项能力而设计的“考场”。
一场“反常识”的考试
传统的AI编程能力测试考什么?通常是编写代码、解决算法题、回答编程问题。但这里存在一个认知盲区:能写代码,绝不等于能找漏洞。
一个模型即使在HumanEval测试中拿到满分,也未必能识别出一处缓冲区溢出风险。写代码考验的是“创造”,而找漏洞考验的是“发现”——这是两种截然不同的思维模式。
N-Day-Bench的核心设计非常直接:
给你一段真实的代码,再给你一个对应的CVE漏洞编号,然后看模型能否独立找出漏洞的具体位置。
关键在于,这些漏洞都是在模型“知识截止日期”之后才被公开的。这考的是真本事,不是背答案。好比一场没有任何考前复习资料的考试,全凭现场分析一段陌生代码,揪出其中隐藏的问题。这其中的难度和刺激性,远非解几道标准习题可比。
榜单出炉,有人欢喜有人愁
那么,考试结果如何?来看最新一期的N-Day-Bench榜单(简要版):

榜单上领先的模型达到了约80%的准确率。这个数字意味着什么?它表明模型已经能够独立定位大部分漏洞,但仍有大约五分之一的漏洞会被漏掉或产生误报。
打个比方,这大致相当于一位初级安全工程师的水平:可以承担实际工作,但尚不能完全独当一面,需要更有经验的同事进行复核。距离“完全自动化”的理想状态还有差距,但已经足以充当一道高效的“第一防线”——快速扫描整个代码库,标记出所有可疑点,然后将最终判断交给人类。效率的提升,是实实在在的。
几个有意思的观察
闭源模型依然强势
观察榜单前三名:OpenAI、Anthropic、智谱,清一色是闭源或半闭源模型。这并非说开源社区实力不济,而是在处理复杂推理、多步骤分析这类任务上,目前闭源大厂凭借更广泛的预训练数据和更精细的强化学习调优,仍然保持着优势。
国产模型表现不俗
GLM-5.1拿到80分,这个成绩相当能打。这说明国内大模型在安全这类垂直领域同样具备竞争力,并非只能局限于聊天机器人场景。安全场景对深度推理能力要求极高,能在此处取得好成绩,其他方面的能力大概率也不弱。
月度更新,防止“作弊”
漏洞世界是动态变化的。如果一个基准测试常年不更新,模型很可能通过记忆“背下答案”,从而失去测试意义。N-Day-Bench每月刷新测试用例的设计非常聪明,它迫使模型必须真正具备代码分析能力,而不是依赖“我见过这道题”。
一切才刚刚开始
目前47个有效测试用例,说多不多,说少也不少。未来还需要覆盖更多的编程语言和漏洞类型。但毫无疑问,这个方向是对的。
安全研究员要失业了?
看到这里,可能有人会问:既然AI找漏洞已经这么厉害了,安全研究员是不是该考虑转行了?
答案是,远未至此。
80%的准确率,反过来看就是20%的漏报率。在真实的攻防环境中,攻击者会采用各种对抗手段和代码混淆技术来绕过检测,这些层出不穷的“新套路”,AI不一定都能识别。更何况,发现漏洞仅仅是第一步。
找到漏洞之后,还需要评估其实际影响(能否被利用?会造成多大破坏?)、生成修复补丁、验证修复方案是否有效……这些后续环节的复杂性和挑战性,一点不比发现漏洞低。
但AI确实从根本上改变了效率等式。
过去需要安全研究员耗费数小时人工审计的代码库,现在模型几分钟就能初步扫描完毕。由AI标记出高风险点,再由人类专家做最终裁决——这是一种生产力的质变,而非简单的岗位替代。就像现代医学中,AI可以辅助医生快速阅读海量影像,但最终的诊断签字权,仍然在医生手中。
更可能出现的未来图景是:安全研究员 + AI助手 = 超级个体。一个人就能完成过去需要一个团队才能覆盖的工作量。
写在最后
安全行业有句老话:防御者永远比攻击者更辛苦。因为攻击者只需找到一个突破口,而防御者必须守护整座城墙。
但现在,AI这把“刀”开始为防御者分担压力了——它可以不知疲倦、永不间断地在代码的海洋里“巡逻”,捕捉那些人类容易忽略的细微异常。N-Day-Bench测试的是AI发现漏洞的能力,但其背后折射的,是整个安全行业游戏规则的变局。
漏洞研究,不再只是极少数精英的专属技能。当AI作为新玩家加入这场博弈,原有的平衡正在被打破。那么,你准备好和AI成为队友了吗?
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:AI 在现实中寻找到真正 N-Day 漏洞的表现如何?要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点用“需求穿透式”提示词定位热点底层动因:先禁止复述事件,再强制向下挖三层,最后绑定可观察行为验证。对比锚定法与反向排除法可防偏航,关键参数需手动填写热点事件、受众画像和发布平台。
京东健康联合广州医科大学附属第一医院发布国内首个通过权威4级评估的呼吸医学人工智能数据集,覆盖多专科数据,训练AI临床决策思维,并实现门诊智能化预问诊闭环,推动医疗AI真实场景落地。
说到智慧社区,这几年已经是个热得发烫的话题了。而真正让它从“概念”走向“现实”的,正是人工智能。AI不仅是后台默默计算的算法,它正在实实在在地改变我们每天出入的小区、享受的服务,甚至是我们与邻里相处的方式。接下来,我们就把AI在智慧社区里的这些应用,掰开揉碎了聊一聊。 AI+智慧社区:不只是炫技,更
想要在 Qoder CN 上顺畅地进行 C++ 开发,却遇到编译报错、标准库无法识别、Kit 始终无法激活等问题?别担心,这通常是由于编译器未正确安装或未与 IDE 关联所致。下面将整个配置流程拆解为四个清晰的步骤,按此操作即可快速搭建可用的 C++ 开发环境。 首先需要明确一点:Qoder CN
- 日榜
- 周榜
- 月榜
热点快看
