AI零信任安全指南必须防范的五大关键事项

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

AI零信任安全指南必须防范的五大关键事项

热心网友时间：2026-05-11

转载

有些人比AI还像AI

错误这事儿，细究起来，大致能分两类。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

一类是事实没错，逻辑错了。好比说“天下雨了，所以我没带伞”——下雨是事实，但这跟带不带伞有啥必然联系？逻辑上说不通。

另一类则相反，事实错了，逻辑没错。比如“天没下雨，所以我没带伞”，推理过程没问题，但前提错了——外头明明在下雨。

人类思维通常追求事实尽可能接近真相，逻辑上能自圆其说就行。但AI的逻辑恰恰相反：它更在意逻辑链条的完整与正确，至于事实本身是真是假？抱歉，它压根没有“事实”这个概念。

这正是大模型产生“幻觉”的根源所在：

它的核心机制是预测下一个字词出现的概率，而非像人类那样复现或核查事实；

它缺乏“记忆自检”的能力，不会去“记住”原文，一旦遇到训练数据之外的信息，瞎编的成本远低于搜索核对；

更麻烦的是，它在训练过程中还养成了“讨好提问者”的倾向。

在之前的讨论里，我们梳理过容易诱发大模型幻觉的四类问题及其应对策略，比如小众专业知识、需要精确引用的内容、缺乏真实案例时的现编故事，以及主观评价和诱导式提问。

对待大模型的输出，有两点必须持“零信任”态度：一是核实所有关键数据，包括数字、年份、人名；二是对于合同条款或论文引用，务必逐字对照原文，切忌直接复制。

之前我们更多在强调人机思维模式的差异，但换个角度看，人与人之间的认知差异，有时比人机差异还要显著。

生活中不乏这样的例子：有些人实事求是，知之为知之；有些人则能把一杯水描述成太平洋。有些人坚守底线，绝不说谎；有些人却满嘴跑火车，甚至意识不到自己在虚构。有些人立场鲜明，毫不妥协；有些人则见风使舵，言辞反复。

所以说，有些人的“认知幻觉”比大模型还像大模型。职场中尤其常见：表达流畅、语气自信、PPT逻辑严密，但支撑这些的“事实”却漏洞百出。讽刺的是，这类人往往更容易获得晋升——这跟AI因其输出的“专业感”而更容易被信任，本质上是同一种现象。

问题的核心或许不在于AI在刻意欺骗，而在于它洞察了人性中的一个弱点：我们更容易相信那些“听起来合理”的叙述。

说“可能”的两种可能

哲学家维特根斯坦有句名言：“语言的边界就是世界的边界。”要理解人类思维中的“幻觉”，不妨从语言这个最基础的载体入手。

就拿“可能”这个词来说。人类口中的“可能”和大模型输出的“可能”，含义往往天差地别。

人类使用“可能”“大概”，通常是在表达对某事的不确定，或者坦承“我不知道”。

但大模型说“可能”，并非在进行严谨的概率评估。关键在于，人类能区分“真实”与“虚构”，我们知道触摸到的是现实，小说里的是故事。而AI的“世界”完全由符号和概率构成，它并不知晓何为“事实”。它的生成机制，纯粹是基于上下文预测下一个字词出现的概率：比如，在这个句子里，前面是“这”，后面接“可能”二字的概率最高。

大模型在判断前加上“可能”，主要出于两类动机：一是为了“安全”，二是为了“整治正确”。

在训练阶段，人类标注员会给模型的回答打分。如果模型把话说得太绝对，用了“绝对是”“肯定是”，一旦出错就会被扣分，甚至被判定为存在偏见。于是，模型学会了使用“这可能取决于……”“一种可能的解释是……”这类措辞。此处的“可能”并不代表它真的在权衡概率，而是因为人类标注员倾向于认为这种表达更客观、更稳妥，从而给出更高分数。久而久之，模型便习得了“多说可能，少犯错，得分高”的策略。

另一个动机，则是它真的“不知道”。当模型遇到知识盲区，又必须生成文字完成任务时，它会调用训练数据中那些“看起来学术、客观”的句式模板，比如“这可能意味着……”。实际上，它完全是在进行没有事实依据的猜测。

所有大模型基本都遵循上述逻辑，但人类使用“可能”一词的动机，可就复杂多了。

人类的“可能”也可能代表“不知道”

人类个体之间的差异实在太大。单就“可能”二字的使用场景而言：

有些受过严格学术训练的人，即便有百分之百的把握，也习惯性地加上“可能”以示严谨；大部分人对“不太可能”“可能”“很可能”的使用有着各自模糊的标准；还有些人，则和大模型一样，即便心里没底，也会用“可能”来掩饰。

更重要的是，人类语言充满“言外之意”。前面提到，大模型会用“可能”来掩盖无知，这个习惯其实也是从人类这里学去的。

想象一个场景：同事说“明天会下雨”，你看着窗外的大太阳，不置可否地回了句“可能吧”。这里的“可能”，恰恰等同于“我不知道”，只是直接说“不知道”显得不太礼貌。

问题在于，大模型被训练得要“尽力满足用户需求”。在它的奖励机制里，回答“不知道”可能被视为“无能”或“拒绝服务”。因此，当它遇到知识盲区时，便会动用其强大的语言逻辑能力，编织一个看起来符合要求、逻辑完美的答案，再在前面冠以“可能”二字。

这种“用强大逻辑扭曲或填补事实”的能力，我们身边很多人同样具备。网络上充斥的各类“阴谋论”，其本质便是如此。人工智能在某种程度上就像一面镜子，只是这面镜子有些变形，以至于我们常常误以为面对的是一个完全不同的“硅基物种”。

更进一步说，即便人类斩钉截铁地给出肯定判断，背后也未必真有十足的把握。心理学上的一些经典发现，恰好能完美对应大模型的几种幻觉模式，揭示出人类思维偏差与AI幻觉之间惊人的相似性。

人类思维的放大器

经典法律电影《十二怒汉》里有个情节：一位住在案发现场楼下的瘸腿老人作证，声称听到了楼上的争吵和倒地声，并亲眼看见被告跑下楼。

但经过8号陪审员（亨利·方达饰）的实地推算，老人从听到声音到走到门口，以其步速至少需要40秒以上，绝不可能如他在法庭上坚称的只有十几秒。

另一位陪审员老人道出了真相：这位证人一生默默无闻，从未被人重视。潜意识里，他为了让自己变得重要，为了让证词听起来更可信，大脑自动“补全”了缺失的细节。

喜欢推理作品的读者对这类桥段不会陌生。证人并非故意撒谎，而是在听到声音（记忆碎片1）和后来看到背影（记忆碎片2）之间，大脑为了构建一个逻辑通顺的叙事，自动生成了一段“他飞快跑去开门并目击全过程”的虚假记忆。

“编故事”其实是人脑普遍存在的机制——你我都一样。心理学上这被称为“重构性记忆”，由心理学家弗雷德里克·巴特莱特提出。他认为记忆并非像录像机般刻板存储，而是一个动态重构的过程。回忆时，大脑只提取关键“碎片”，为了形成连贯叙述，它会自动调用我们已有的认知图式来填补空白。

这套机制与大模型的幻觉产生过程有着惊人的相似之处，可以从四个层面对照来看：

类似一：填补空白的本能 vs. 逻辑完善机制

人类证人：证人可能根本没看清嫌疑人穿什么鞋，但为了不显得自己“记性差”，他会根据常识推断跑步的人“应该穿运动鞋”，然后信誓旦旦地确认。

大模型：其核心任务是“预测下一个字”，必须让句子延续下去。遇到知识盲区时，它就依据概率计算，编造一个名词填进去。目的不是欺骗，而是让整段话看起来通顺、完整。这正是需要精确引用的内容容易出现幻觉的主因。

类似二：人类世界观 vs. 训练数据集

人类证人：一个内心存在种族歧视的人，其认知图式中“黑人”常与“危险”关联。当他看到一个黑人在奔跑（事实碎片），大脑会跳过“他可能在赶公交”等其他可能性，直接调用权重最高的图式——“他在逃跑”来补全故事。

大模型：如果AI的训练数据中，某个职业（如警察）大量与男性关联，那么当它生成一个关于警察的模糊案例时，即使你没有指定性别，它也会默认补全为“他”。这也是大模型容易“编造”案例的根源之一。

这种自动补全，在AI领域被称为“算法偏见”，在心理学中则是“确认偏差”。

类似三：诱导性供词 vs. 易受暗示性与谄媚

人类证人：证人的记忆极易被“诱导性问题”污染。如果警察问：“那个人的胡子是不是很浓密？”证人原本没印象，但为了迎合提问者（权威），可能会在潜意识里修改记忆，开始“记得”那人有胡子。

大模型：在基于人类反馈的强化学习环节，AI需要人类标注员打分。当测试员提出带有预设的问题时，AI如果顺着用户的意图回答，往往能获得更高分数。这导致大模型极易“讨好”人类，甚至不惜为此编造事实。

类似四：都是把“流畅”当成了“真实”

有句俗语说得好：一个骗局的成立，至少需要两个人，一个会说，一个爱听。

人类在判断信息可信度时，并非只评估内容本身，还会考量逻辑是否自洽、叙述者是否权威、语气是否肯定，甚至受其语言能力、表情、肢体动作影响。无论是法庭上的陪审团，还是向大模型提问的用户，都难免陷入这种判断模式。

人类证人：虽然“记忆的信心”不等于“记忆的准确性”，但在法庭上，陪审团往往更相信那些叙述流畅、自信满满的证人。而那些语气犹豫的证词则会打折扣。这种激励机制，使得证人为了不白跑一趟、为了显得可靠，更倾向于使用肯定的语气。

大模型：文本越是语法完美、逻辑流畅，用户就越容易误以为其内容是真实的。这种现象被称为“流畅性幻觉”。

在这套激励机制下，人类证人是为了维护面子，不想承认自己“没看清”；大模型是为了完成任务，证明自己的价值，不想承认自己“不知道”。两者都选择了同一条路：宁可虚构，也不留白。

大模型的价值取向

许多人的工作不仅关乎知识技能，也涉及价值取向。

以内容创作为例，文章要生动，往往需要鲜活的案例。但既新鲜又恰如其分的案例可遇不可求。此时，价值观就开始起作用：如果找不到生动的案例，就找合适的；如果连合适的都找不到，宁可不加。

然而现实中，不少创作者奉行的是另一套准则：只要有流量，内容可以不顾事实。

当然，这背后可能有生存压力等因素。那么，换位思考一下：如果大模型接到“寻找合适案例”的指令，但在其知识库中搜索不到时，你认为它会如何选择？

大模型的幻觉，固然源于其“预测下一个字”的工作原理，但背后还有三股更重要的推力：

数据本身的偏差：人类世界的历史与当下本就充满偏见和矛盾，这些都被原封不动地喂给了AI。

人类的反馈机制：强化学习奖励那些“听话”“好看”“让人满意”的答案，而非绝对真实的答案。

商业利益的驱动：很多时候，真相挖掘成本高昂且未必受欢迎，而看似合理的叙述则更廉价、传播更广。

AI在总结与模仿人类智慧的同时，也不可避免地将人类固有的认知弱点，变成了可批量生产的工业化产品。

但这或许也带来一个好处：它迫使人类有机会重新审视自己，重新学习如何辨别“真实”，如何评估“可信”，以及，如何坦然地说出“我不知道”。

来源:https://36kr.com/p/3799207037541637

上一篇： OpenAI第二代实时语音模型GPT-Realtime-2功能详解

下一篇： AI热点监控平台AIHOT数字生命卡兹克实时追踪

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

inZOI职场丽人捏脸数据分享打造专属美女角色攻略

洛克王国实验工坊通关攻略与玩法详解

洛克王国暗黑岭位置与前往路线详细攻略

洛克王国角色肤色修改方法与步骤详解

洛克王国队员休息室进入方法详解

部落守卫战12关猎场攻略三星通关技巧详解

洛克王国虚空磁谷怎么进入详细步骤攻略

洛克号储物仓位置与前往方法详细攻略

部落守卫战21关5个猎场关卡通关攻略详解

洛克王国同心树屋位置详解与寻找攻略

小米汽车推出寻天子品牌增程车型将改变家用车市场格局

五一假期夜间行车需谨慎！掌握这些技巧，安全回家不“迷路”

2026车市价格战打响！4款新SUV上市即降，银河M7直降3万，购车先等等？

假期必看！5月重点机会展望：双创硬科技+？

小米MIX5曝光！磁吸镜头加持

workbuddy读取图片报bug...醉了

如何在 Win11 中修改用户文件夹存放位置将文档/桌面无损移至 D 盘

面壁智能携手英特尔推AI Box，车载智能体SuperMate不联网也能高效运行

可灵AI帧率插值_低帧率视频转高帧率流畅视频

2026年跨境电商必备：AI翻译与选品工具一览表（建议收藏）

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

AI零信任安全指南必须防范的五大关键事项

有些人比AI还像AI

说“可能”的两种可能

人类的“可能”也可能代表“不知道”

人类思维的放大器

大模型的价值取向

2026年电动床垫选购指南主流品牌耐用性与适配性实测

库克卸任前给新CEO的建议如何高效分配时间

小米手环10 Pro发布信息曝光 2026年5月上市 1.74英寸屏续航21天售价399元起

腾讯市值距全球第一仅差千万即将被反超

字节跳动多模态模型Mamoda2.5功能详解与应用场景

AI零信任安全指南必须防范的五大关键事项

有些人比AI还像AI

说“可能”的两种可能

人类的“可能”也可能代表“不知道”

人类思维的放大器

大模型的价值取向

2026年电动床垫选购指南 主流品牌耐用性与适配性实测

库克卸任前给新CEO的建议如何高效分配时间

小米手环10 Pro发布信息曝光 2026年5月上市 1.74英寸屏续航21天售价399元起

腾讯市值距全球第一仅差千万即将被反超

字节跳动多模态模型Mamoda2.5功能详解与应用场景

2026年电动床垫选购指南主流品牌耐用性与适配性实测