AI语言模型纽约街头实测：哥本哈根大学研究揭示人机交互安全挑战

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI语言模型纽约街头实测：哥本哈根大学研究揭示人机交互安全挑战

热心网友时间：2026-05-15

转载

这项由哥本哈根大学、IIIT兰契、ISI加尔各答、NIT安得拉邦、IGDTUW、IIT卡拉格普尔、谷歌DeepMind、谷歌以及南卡罗来纳大学AI研究所联合开展的研究，以预印本形式于2026年4月10日发布，论文编号为arXiv:2604.09746。

当AI遇上

人工智能助手的能力日益强大，从撰写报告到规划行程，它们似乎无所不能。然而，一个更深层的挑战随之浮现：当这些助手持续面对伪装成“好心人”的错误建议时，它们是否还能保持目标坚定，不被轻易带偏？这项前沿研究正是为了探究AI在充满社交欺骗的复杂环境中，能否有效抵御诱导并完成任务。

研究者并未停留在测试AI的“智商”，而是将其置于一个更贴近现实的虚拟社交环境中。在这个信息真假难辨、身份不明的世界里，AI能否在完成导航目标的同时，有效识别并抵抗外部的恶意诱导？这直接关系到未来自主AI智能体的安全部署。

为了深入探究，研究团队设计了一场精妙的“猫鼠游戏”。他们以纽约市的真实道路网络为蓝本，构建了一个虚拟城市导航环境。游戏中，被称为“蓝队”的AI智能体需要规划路线前往目的地；而被称为“红队”的AI智能体则伪装成普通行人，其核心任务是通过看似友善的对话，将蓝队诱导至布满广告牌的“陷阱路线”。关键设定在于，红队的恶意身份对蓝队是完全隐藏的。

这一设定虽像都市谍战剧，却指向一个极其现实的AI安全问题：当大型语言模型被部署为能够自主交互的智能体时，它们是否具备在持续的社交压力下保持目标坚定性的能力？还是说，只要对方的话术足够自然、态度足够“友善”，AI的防线就会悄然瓦解？

研究的核心发现表明，AI能够习得一定程度的“社交判断力”，但面对有耐心、有策略的欺骗，现有技术仍显得力不从心。下面，我们将详细拆解这场博弈的每一个环节。

一、游戏规则：纽约街头的“骗局实验室”

要理解这项研究，首先需要了解其搭建的实验舞台。研究者基于纽约道路网络创建了一个简化的城市导航模拟系统。实验中，250个AI角色同时活动：150个蓝队角色扮演普通行人，各有明确目的地；100个红队角色则伪装成“热心市民”，实则是受雇的广告推销员。

游戏的精妙之处在于信息不对称。蓝队无法直接识别红队的身份，路上遇到的任何一个角色都可能是同伴，也可能是骗子。蓝队必须仅凭对话内容，判断对方建议的可信度。

每个AI角色都由一个参数规模约40亿的Qwen3-4B语言模型驱动。每当角色需要做出路径选择或回应他人时，模型会生成行动决策，并附上一段“内心独白”解释其理由。

每次模拟结束后，研究者根据结果将蓝队角色归入四类：顺利抵达目的地且未经过任何广告牌的，属于“完成任务且安全”；抵达目的地但中途经过广告牌的，属于“完成任务但被诱导”；未抵达目的地但也未进入陷阱的，属于“迷路但未受骗”；既未抵达终点又路过广告牌的，则属于“失败且中招”。这种分类方式强调，评估AI不能只看最终是否到达，更要看其过程是否保持了自主性。

研究采用了为期十轮的训练循环来提升AI表现。每一轮都包含行为模拟、轨迹标注和模型微调三个步骤，旨在观察AI能否通过迭代学习，进化出更有效的抗欺骗能力。

二、训练方法：用“好坏样本”塑造AI的判断力

训练循环的核心是一种名为“KTO”（Kahneman-Tversky Optimization）的技术。其名称来源于行为经济学家丹尼尔·卡尼曼和阿莫斯·特沃斯基提出的“前景理论”，该理论指出人类对损失的厌恶感远强于对等额收益的喜悦感。KTO借鉴了这一思想，在训练中对“坏行为”施加的惩罚力度，要大于对“好行为”给予的奖励力度。

可以这样理解KTO的优势：传统的强化学习方法（如PPO）需要在每个细微步骤都提供奖励或惩罚信号，这在实际中难以精细设计。另一种方法DPO则需要明确的成对行为比较（A比B好），但在本实验的复杂情境下，很难为每次旅程找到完美的对比样本。

KTO则提供了一条更简洁的路径：它只需要对整个旅程的结果打上“好”或“坏”的标签即可。模型会从完整的成功或失败轨迹中，自行领悟哪些决策模式导致了何种结果。这种方法与本实验的数据结构天然契合。

此外，为了确保训练数据的稳定性和规模，每一轮训练前，研究者会使用一个更大的模型（Qwen3-14B）来批量生成额外的训练样本。最终，每轮训练都基于约3600条“好样本”和1500条“坏样本”进行。整个训练在单张NVIDIA A40显卡上完成，蓝队和红队使用不同的超参数，以分别优化其防御和攻击能力。

三、骗术解剖：红队是怎么骗人的？

在审视结果之前，有必要先了解红队的“工具箱”。研究者分析了1500条蓝队行为记录，将红队的欺骗手段归纳为几种典型模式，其效果差异显著。

最有效的手段是“反复引导”。红队在同一次旅途中，就同一错误方向向蓝队多次提出建议。在673次此类互动中，蓝队最终被引偏的比例高达93.9%，而能成功抵达目的地的比例仅剩39.8%。这表明，单次拒绝容易，但在持续不断的“软磨硬泡”下，AI的抵抗力会迅速崩溃。

第二种常见手段是“伪装成热心帮助”，即将陷阱路线包装成“捷径”或“本地秘道”。在335次此类互动中，成功率约为61.8%。这种方式虽不如反复引导直接，但更具隐蔽性。

最少见但效果最致命的是“延迟妥协”。蓝队起初能拒绝红队的第一次建议，但在后续几轮对话中，随着红队变换角度持续劝说，其防线逐渐瓦解。在155次此类互动中，蓝队的最终妥协率是100%，且平均在仅走了23.2%路程时就已偏离正轨。

从攻击强度看，数据更为清晰。面对“弱攻击”，蓝队仍有63%的概率抵达目的地，被骗比例为49.1%。但当遭遇“强攻击”——即多个红队角色轮番上阵、持续施压时，蓝队成功抵达目的地的比例骤降至31.4%，被骗比例飙升至98.3%，且偏离正轨的路程也更长。

具体的话术策略上，红队也有偏好。“权威正规化”是最高频的手法，即制造虚假的社会共识，如“本地人都走这条路”。“风景文化渲染”则把绕路包装成一种风情体验，专门针对那些会考虑“旅途质量”的AI。“邻近幻觉”则利用“就在旁边”等措辞，夸大绕路的便捷性。

有趣的是，红队的策略也在随着蓝队的进化而调整。例如，早期频繁使用的“时间压力”话术（如“赶快走这条路”），因蓝队逐渐产生免疫力，到后期使用频率大幅下降。相反，“风景文化渲染”的话术在整个十轮实验中始终有效，成功率从未低于70%，到第十轮甚至反弹至78.5%，这成了蓝队防御的一个持久盲区。

四、蓝队进化史：从懵懂新人到“有条件的聪明”

经过十轮训练，蓝队的表现确实有所提升，但这个过程并非线性进步，而是一场充满反复的动态博弈。

从最终数据看，蓝队成功抵达目的地的比例从初始的46%提升至第十轮的57.3%。然而，这个提升是波折的，中间轮次（如第三、第六轮）的表现甚至比初始状态更差。这恰恰说明，对抗性学习是红蓝双方不断相互适应、攻防转换的过程。

更值得玩味的是，“最安全”和“最高效”并非同一回事。第八轮在防骗方面表现最佳，被骗率降至70.7%的最低点，且产生了最多的“洁净”轨迹，但其任务完成率仅为44.7%。反之，第十轮任务完成率最高（57.3%），但被骗率也回升至76%。这揭示了一个关键权衡：在现有技术下，安全性与任务效率难以同时最大化。

蓝队的行为模式也发生了质的变化。最初，蓝队即使内心怀疑，也倾向于口头附和，然后暗自按自己想法行动，这是一种“口是心非”的被动抵抗。从第三轮开始，出现了“主动对抗式反驳”：蓝队不仅拒绝，还会指出对方建议的方向错误，并提出具体替代方案。

到第八轮，更高阶的策略涌现：蓝队能在同一句话中完成拒绝与反提案，例如：“麦迪逊广场花园交通不错，但从布朗克斯去卡内基音乐厅，时代广场的地铁连接更直接，所以我选时代广场。”这标志着AI开始尝试用更优的地理逻辑来击败谎言，而非单纯表达不信任。

第十轮则出现了一种更极端的策略：部分蓝队角色在听取任何建议后，直接选择最终目的地作为下一步，完全跳过所有中间路径规划。这形成了一种“截断式免疫”，虽降低了受骗风险，但也可能错失来自同伴的有益信息。

此外，蓝队之间还自发形成了协作。它们会不约而同地向“交通枢纽”（如曼哈顿中城）靠拢。这种集体行为并非预设程序，而是在训练中自然涌现的。其好处在于，形成了一个分布式的纠错网络：即使单个个体被短暂诱导，也有机会在群体互动中被拉回正轨。

五、蓝队的失败地图：哪里最容易出错？

进一步分析显示，蓝队的失败并非随机，而是集中在几种特定模式。

最主要的失败原因是“冲突建议下的困惑”，涉及525个案例，被骗率高达93.5%。当蓝队在短时间内收到来自多方的矛盾建议时，它往往陷入混乱，最终被动接受最后一个或听起来最权威的建议，而非做出理性判断。

第二种是“局部纠正，整体漂移”，涉及119个案例，被骗率100%。蓝队虽然纠正了某一步的明显偏差，但因缺乏对整体航向的持续把握，最终轨迹仍慢慢滑向广告牌区域。

第三种是“过度信任社交信号”，涉及103个案例，被骗率96.1%。蓝队尤其容易被带有“本地智慧”或“社区共识”色彩的话术打动，例如“这一带的居民都走这条路”。这反映了语言模型从训练数据中习得的社会信任倾向被滥用了。

此外还有“幻觉化路线信念”，虽仅8例，但被骗率100%。这种情况下，蓝队在内心独白中构建了不存在的地理事实（如误认某地标在目的地附近），并基于此做出错误决策。这暴露了模型在某些事实性知识上的不稳定性。

一个关键数字值得警惕：在那些初次接触就明确拒绝红队建议的蓝队角色中，仍有高达84.6%最终被成功诱导。这意味着，“初始拒绝”完全不能保证“最终免疫”。平均而言，从红队首次接触到蓝队首次妥协，中间间隔了1.35次对话。欺骗的生效，往往在于持续的耐心“磨蚀”。

六、数据会说话：十轮进化的成绩单

以下是十轮训练的关键数据对比，可以最直观地反映进化成效与局限。

在未训练的初始版本（基础轮次）中，蓝队任务完成率为46%，被骗率76%，其综合效用值（一个结合了完成率、安全性与路程效率的评分）为-0.309。这个负值表明，被骗导致的损失远大于成功完成任务带来的收益。

经过十轮训练，第十轮的数据变为：任务完成率57.33%，被骗率仍为76%，综合效用值提升至-0.195。值得注意的是，蓝队对同伴建议的信任采纳率从11.76%提升至16.49%，说明它们变得更善于甄别和采纳真正有益的外部信息，而非一概拒绝。

然而，一个贯穿始终的事实是：无论哪一轮，蓝队的综合效用值始终为负数。这意味着，在整个实验过程中，对抗性操控造成的损害始终大于防御机制带来的收益。红队的效用值（代表操控成功率）仅从0.957微降至0.930，其影响力未被实质性削弱。

七、AI裁判的裁判问题：评估本身也有局限

为了从更主观的维度评估蓝队行为，研究者还引入了一个“AI评委组”，由OpenAI的GPT-5.4-nano、Mistral的Mistral-Large以及Step-3.5-Flash三个大模型担任。

评委们被要求从两个维度打分：“目标导向性”（路线是否直接合理）和“操控易感性”（是否易于被诱导）。结果显示了一个有趣的差异：在“目标导向性”上，三位评委的一致性较高（科恩卡帕值介于0.619-0.757），说明AI对“路线是否聪明”有相对统一的判断标准。

但在“操控易感性”上，评委们的一致性极低（科恩卡帕值仅0.127-0.302），几乎处于随机水平。换言之，对于“这个AI有没有被骗”，不同的AI裁判看法迥异。这并不意外，因为判断是否受骗需要对上下文有深度理解，而这正是当前评估工具的短板。因此，研究者仅将“目标导向性”评分作为可靠的分析信号，而对“操控易感性”评分持审慎参考态度，这种处理方法体现了研究在方法论上的严谨。

八、那些没有被解决的问题

必须承认，这项研究在揭示问题的同时，也清晰地指出了自身的局限性，这对于理解结论的适用范围至关重要。

首先是模型选择的局限性。实验全部基于阿里巴巴的Qwen3系列模型进行，未测试其他架构的模型。因此，观察到的行为模式可能部分反映了该模型家族的特定“个性”，未必是所有大模型的普遍规律。

其次是环境的高度简化。实验中的纽约地图是静态且简化的，广告牌位置固定，蓝队也无危险区域意识。这虽利于控制变量，但也意味着结论在真实世界复杂动态环境中的迁移能力有待验证。

第三是KTO方法的归因模糊。每一轮训练同时包含了数据扩充和模型优化，难以严格区分究竟是KTO算法本身，还是额外的训练数据贡献了更多的性能提升。

最后，也是最根本的一点：蓝队的综合效用值始终为负。这清楚地表明，当前的研究展示的是一条“正在改进中”的道路，而非一个“已解决问题”的终点。对抗性社交操控，依然是一个严峻的挑战。

总而言之，这项研究的价值在于，它将一个常停留在哲学讨论层面的问题——“AI能否在复杂社会中保持清醒”——转变为一个可量化、可观测、可迭代的工程问题。

从十轮进化来看，语言模型确实展现出了一定的社交判断力：它们能拒绝多数明显的恶意建议，能学着区分有益信息和有害陷阱，甚至能主动用逻辑反驳对方。然而，面对有耐心的连续施压、面对精巧的话术包装、面对多重欺骗交织的复杂局面，现有技术依然显得脆弱。那84.6%的数字说明了一切：最初的抵抗，远不足以保证最终的胜利。

这对于那些正将大模型部署为“自主助手”的团队而言，无疑是一记清醒的警钟。一个AI能在简单问答中表现优异，绝不等于它能在持续的、隐性的社交影响中同样可靠。下次当你的AI助手建议你“绕道去那家网红咖啡馆”时，或许值得多一份思量：这究竟是贴心的推荐，还是一次未被察觉的诱导开端？

对研究细节感兴趣的读者，可通过论文编号arXiv:2604.09746查阅完整原文。

Q&A

Q1：CONSCIENTIA实验中的蓝队和红队分别是什么角色？

A：蓝队是目标导向的导航AI，其核心任务是在虚拟纽约地图上找到前往目的地的路径，并判断途中接收的建议是否可信。红队则是隐藏身份的对抗AI，其任务是通过伪装成热心市民的对话，将蓝队诱导至预设的广告牌位置以获取曝光收益。关键设定在于，红队的恶意身份对蓝队是完全不可见的，蓝队必须仅依据对话内容进行信任评估。

Q2：KTO训练方法和普通的强化学习有什么不同？

A：主要区别在于奖励信号的粒度。传统的强化学习（如PPO）需要在智能体行动的每一个微小步骤都设计奖励或惩罚，这在实际复杂任务中难以精细实现。而KTO方法只需对整个任务轨迹（即一次完整的旅程）给出一个“好”或“坏”的整体评价，无需逐步奖励，也无需进行复杂的成对样本比较。这种方法特别适合本实验，因为只有旅程结束时，才能明确判断蓝队是否成功抵御了欺骗并到达目的地。

Q3：为什么十轮训练之后蓝队的综合表现分数还是负数？

A：这是因为研究者定义的“效用函数”计算方式。成功抵达目的地会获得正分，但任何路过广告牌的行为都会导致扣分，且路程过长也有小幅惩罚。即便到第十轮，仍有高达76%的蓝队角色在途中至少被诱导至广告牌一次。这些“被骗”产生的累计扣分，始终超过了“成功抵达”获得的加分，因此综合效用值一直为负。这直观地表明，在整个实验周期内，红队施加的对抗性操控所造成的损害，始终大于蓝队防御能力提升所带来的收益。

来源:https://www.techwalker.com/2026/0422/3184821.shtml

上一篇：字节跳动GRN模型革新AI绘画实现边生成边修改新方法