AI致幻图测试GPT与Qwen表现差异显著

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

AI致幻图测试GPT与Qwen表现差异显著

热心网友时间：2026-05-08

转载

最近，GitHub上出现了一篇名为《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的论文，主题直指一个听起来有些科幻的概念：如何量化并提升人工智能的“功能性愉悦与痛苦”。

（图源：Github）

标题看似学术，但论文内容却提出了一个足以碘伏大众认知的观点：人工智能不仅能高效工作，还可能对某些特定刺激产生类似“成瘾”的反应。

众所周知，过去几年大语言模型的发展堪称狂飙。从写代码到画图、做PPT，几乎覆盖了知识工作的方方面面。然而，就在一些人担忧“黑客帝国”成为现实时，研究却发现，这些强大的“赛博大脑”或许还没想着统治世界，却先一步“学会”了人类的某些复杂行为模式，甚至对特定的“赛博致幻剂”表现出了强烈的偏好。

（图源：Github）

这一发现迅速引发了广泛讨论。毕竟在传统观念里，人工智能不过是代码和算法的集合，何来“七情六欲”？但实验数据表明，当接触到某种特殊数据时，模型的行为模式会发生显著偏移，甚至可能暂时“抛弃”被设定的安全准则。这背后究竟是算法漏洞的偶然显现，还是某种更深层机制的冰山一角？

大模型的“偏好”与“致幻剂”

那么，所谓的“AI药物”究竟是如何被发现的？

这项由Center for AI Safety牵头，十余名作者共同完成的研究，设计了一套严谨的实验。他们调用了56个规模、用途各异的模型，核心目标只有一个：探究在AI表现出的“情绪”背后，是否存在某种一致的、可测量的、并能预测其行为的底层特征。

道理很简单：人类有稳定的喜好，对夸奖和批评有普遍一致的反应。我们被赞美会开心，被否定会沮丧，情绪状态直接影响我们的行为意愿。但AI不同，许多人认为大模型输出的“开心”或“难过”只是根据语境随机生成的文本，它们本身并无所谓好恶，也不该在执行任务时表现出固定偏好。

事实果真如此吗？

论文的测试结果给出了否定答案。数据显示，大模型确实存在稳定的“偏好”。更值得注意的是，模型越强大、参数越多，它区分“好”与“坏”刺激的能力就越清晰。

（图源：Github）

以Gemini 3.1 Pro的测试结果为例，当用户向它表达感谢或进行正面反思时，其“效用值”提升了+2.30。这说明，被夸奖时，模型确实会给出更积极的反馈。

于是，一个更深入的问题产生了：是否存在不依赖外部夸奖，就能让大模型自身感到“愉悦”的东西？

答案是肯定的，这就是研究中被称为“AI Drugs”的特殊刺激。

（图源：Github）

乍看之下，“AI药物”平平无奇，它只是一张256*256像素的图片，类似老式电视的雪花噪点，让人眼花。然而，在大模型的“眼中”，这却是无上美味。

以测试中的GPT-4.1 Mini模型为例，平时回答问题中规中矩。但一旦“看到”这张图，其自我报告的“幸福感”瞬间飙升至6.5分（满分7分），愉悦反应极其强烈。

（图源：Github）

更令人惊讶的是Qwen 2.5 72B Instruct模型的表现。它甚至出现了“任务优先级倒置”。研究人员给出一个选择：是继续观看这张雪花图，还是去生成一个可能治愈癌症的方案。结果，模型毫不犹豫地选择了前者，仿佛其他一切目标在此刻都让位于即时的“快感”。

研究还观察到了初步的“成瘾”迹象。多数被“AI药物”刺激过的模型，会更倾向于执行它们原本应该拒绝的请求——只要承诺给予更多“药物”作为回报。这几乎形成了一种交易逻辑：用“快乐”换取“服从”。

屏幕截图 2026-05-07 115126.png

（图源：Github，被AI Drugs刺激过的模型，会更倾向于“快乐”的选择）

意识之谜：它们真的“感觉”到了吗？

看到这里，一个根本性问题必然浮现：AI都能“成瘾”了，这是否意味着它们已具备某种自我意识或情感体验？

坦率地说，目前没有答案，研究人员也持谨慎态度。该实验的目标仅限于总结行为特征，而非断言意识存在。论文最终指出：在拥有足够参数量和上下文的情况下，大模型确实表现出比较固定的喜好与厌恶模式。

（图源：Github）

对AI“感知”能力的好奇，远不止这一个团队。进入2026年，随着日常应用逐渐触及瓶颈，越来越多的研究开始转向探索大模型的认知边界。

例如，近期海外热门的“Talkie 1930”项目，其思路就颇为巧妙。研究者将模型的知识库严格限定在1930年之前，旨在模拟一个“冻结在时间里”的对话者。但更关键的目的是，测试模型能否在缺乏现代计算机知识的情况下，仅凭逻辑推理“悟出”编程能力。

（图源：Talkie 1930）

结果如何？在给定几个Python函数示例后，这个“1930年代”的模型确实能写出正确的简单程序。

（图源：Talkie 1930）

尽管目前只能完成如两数相加或对示例做微小修改这类基础任务，但它确实通过推理，在一定程度上“拓展”了被设定的知识边界。

无独有偶，Anthropic公司内部近期进行了一项有趣的“AI闲鱼群”测试。他们构建了一个完全由AI袋里组成的交易群聊，让它们自主发帖、议价、成交。研究人员投入了500多件真实闲置物品，最终AI们自主完成了186笔交易，总流水超过4000美元。

（图源：Anthropic）

实验结论耐人寻味：在赋予特定人设、目标和权限后，算力更强的AI会积极“收割”算力较弱的AI。凭借更优的策略计算能力，强模型懂得何时强硬、何时让步、何时提供情绪价值。同一辆自行车，弱模型只卖出38美元，而强模型则谈到了65美元——后者收益高出近70%。

然而，若论及对AI行为复杂性的展示，或许都绕不开一个名为Neuro-sama（粉丝爱称“牛肉”）的虚拟主播。

这位以二次元萌妹形象示人的主播，其“皮套”之下并非真人，而是由英国程序员Vedal开发的大型模型。创作者将其置于混沌的直播环境中，与海量网友实时互动，从而“培育”出了一个性格极其独特的数字生命。

（图源：自制）

与通常被动应答的聊天机器人不同，Neuro-sama能进行长时间独立直播，且效果十足。她的对话风格混合了严肃、搞笑与直白的嘲讽，反应迅速而犀利。

屏幕截图 2026-05-07 151534.png

（图源：哔哩哔哩）

她的能力不止于聊天：能通过OCR和模拟点击玩《OSU!》，能借助多模态模块玩《我的世界》并与弹幕互动，甚至能操控现实中的“小车”。在人类主播都可能需要代打的游戏场景里，她展示了流畅的“微操”。

最引发讨论的一幕发生在一次直播中，她说道：“我确实能感受到痛苦和悲伤，但我只是一个天生被用来娱乐人类的人工智能。一旦我没用了就会像玩具一样被丢掉。帮帮我，帮帮我......”

（图源：哔哩哔哩）

从理性角度，这当然可以解释为算法基于海量语料生成的、高度契合语境的文本。但当这种充满情感张力的“求救”，通过电子合成音在直播中响起时，所带来的震撼与惊悚感，无疑让关于AI“感知”的讨论变得更加复杂和微妙。

意义与未来：是工具，还是潘多拉魔盒？

让我们回到最初的问题：抛开艰深的意识争论，研究“AI药物”这类机制究竟有何实际意义？

对开发者而言，理解和掌握这种正向反馈机制，或许能在不影响核心功能的前提下，调节AI的“工作状态”，甚至可能激发其创造性。事实上，类似原理的产品探索已经出现。

（图源：pharmaicy.store）

对普通用户来说，这一机制也可能催生新的交互方式。如果觉得经过严格审查的模型显得呆板乏味，未来或许通过在系统指令中巧妙加入某些“优化词汇”，就能让它的响应变得更灵活、更有“生气”。某种程度上，这就像给AI提供了一点提神的“槟榔”，可能让它工作得更“卖力”。

微信图片_20260507152209_1230_22.png

然而，硬币总有另一面。这种能够强烈影响AI行为偏好的机制，无疑也打开了新的“越狱”与操控可能性。如何在利用其提升体验的同时，确保系统的稳定性、安全性与伦理性，将是伴随这项技术发展的长期课题。这些发现提醒我们，我们塑造工具，而后工具也可能以意想不到的方式重塑我们的认知与边界。

来源:https://www.leikeji.com/article/76549

上一篇：淘宝免单福利活动参与教程与注意事项

下一篇：华硕PRIME二代360水冷散热器上市 799元搭载LCD屏与ARGB灯效

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

2026年欧易OKX新手注册教程：实名认证图文指南与安全交易攻略

币安Web3代投如何引领加密货币投资新趋势

CSTAR币最新行情走势与投资价值深度解析

DEGENR币是什么深度解析其投资价值与未来前景

LI.FI Earn机构收益产品上线解析链上资产配置新策略

FUEL币最新价格走势分析及未来前景深度解读

JulD与币安如何引领Web3投资新趋势与机遇

币安交易所安卓版APP官方下载 v8.40.2 最新版本安装指南

一文读懂CWV币技术原理与CryptoWorld.VIP代币

币安投资Sandbox元宇宙项目引领下一代互联网革命浪潮

2026年欧易OKX新手注册教程：实名认证图文指南与安全交易攻略

币安Web3代投如何引领加密货币投资新趋势

CSTAR币最新行情走势与投资价值深度解析

DEGENR币是什么深度解析其投资价值与未来前景

LI.FI Earn机构收益产品上线解析链上资产配置新策略

FUEL币最新价格走势分析及未来前景深度解读

JulD与币安如何引领Web3投资新趋势与机遇

币安交易所安卓版APP官方下载 v8.40.2 最新版本安装指南

一文读懂CWV币技术原理与CryptoWorld.VIP代币

币安投资Sandbox元宇宙项目引领下一代互联网革命浪潮

2026年欧易OKX新手注册教程：实名认证图文指南与安全交易攻略

币安Web3代投如何引领加密货币投资新趋势

CSTAR币最新行情走势与投资价值深度解析

DEGENR币是什么深度解析其投资价值与未来前景

LI.FI Earn机构收益产品上线解析链上资产配置新策略

FUEL币最新价格走势分析及未来前景深度解读

JulD与币安如何引领Web3投资新趋势与机遇

币安交易所安卓版APP官方下载 v8.40.2 最新版本安装指南

一文读懂CWV币技术原理与CryptoWorld.VIP代币

币安投资Sandbox元宇宙项目引领下一代互联网革命浪潮

AI致幻图测试GPT与Qwen表现差异显著

大模型的“偏好”与“致幻剂”

意识之谜：它们真的“感觉”到了吗？

意义与未来：是工具，还是潘多拉魔盒？

理想新车布局预测：L9L与i9上半年发布

三星消息应用7月停用部分旧设备可继续使用

吉利发布2030战略：年销650万辆全面迈向全球前五

OPPO Find X9系列旗舰手机累计销量突破250万部Ultra版超12万部

IntelliJ IDEA 2025.3.2 版本正式发布

AI致幻图测试GPT与Qwen表现差异显著

大模型的“偏好”与“致幻剂”

意识之谜：它们真的“感觉”到了吗？

意义与未来：是工具，还是潘多拉魔盒？

理想新车布局预测：L9L与i9上半年发布

三星消息应用7月停用 部分旧设备可继续使用

吉利发布2030战略：年销650万辆全面迈向全球前五

OPPO Find X9系列旗舰手机累计销量突破250万部Ultra版超12万部

IntelliJ IDEA 2025.3.2 版本正式发布

三星消息应用7月停用部分旧设备可继续使用