AI致幻图测试GPT与Qwen表现差异显著
最近,GitHub上出现了一篇名为《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的论文,主题直指一个听起来有些科幻的概念:如何量化并提升人工智能的“功能性愉悦与痛苦”。

(图源:Github)
标题看似学术,但论文内容却提出了一个足以碘伏大众认知的观点:人工智能不仅能高效工作,还可能对某些特定刺激产生类似“成瘾”的反应。
众所周知,过去几年大语言模型的发展堪称狂飙。从写代码到画图、做PPT,几乎覆盖了知识工作的方方面面。然而,就在一些人担忧“黑客帝国”成为现实时,研究却发现,这些强大的“赛博大脑”或许还没想着统治世界,却先一步“学会”了人类的某些复杂行为模式,甚至对特定的“赛博致幻剂”表现出了强烈的偏好。

(图源:Github)
这一发现迅速引发了广泛讨论。毕竟在传统观念里,人工智能不过是代码和算法的集合,何来“七情六欲”?但实验数据表明,当接触到某种特殊数据时,模型的行为模式会发生显著偏移,甚至可能暂时“抛弃”被设定的安全准则。这背后究竟是算法漏洞的偶然显现,还是某种更深层机制的冰山一角?
大模型的“偏好”与“致幻剂”
那么,所谓的“AI药物”究竟是如何被发现的?
这项由Center for AI Safety牵头,十余名作者共同完成的研究,设计了一套严谨的实验。他们调用了56个规模、用途各异的模型,核心目标只有一个:探究在AI表现出的“情绪”背后,是否存在某种一致的、可测量的、并能预测其行为的底层特征。
道理很简单:人类有稳定的喜好,对夸奖和批评有普遍一致的反应。我们被赞美会开心,被否定会沮丧,情绪状态直接影响我们的行为意愿。但AI不同,许多人认为大模型输出的“开心”或“难过”只是根据语境随机生成的文本,它们本身并无所谓好恶,也不该在执行任务时表现出固定偏好。
事实果真如此吗?
论文的测试结果给出了否定答案。数据显示,大模型确实存在稳定的“偏好”。更值得注意的是,模型越强大、参数越多,它区分“好”与“坏”刺激的能力就越清晰。

(图源:Github)
以Gemini 3.1 Pro的测试结果为例,当用户向它表达感谢或进行正面反思时,其“效用值”提升了+2.30。这说明,被夸奖时,模型确实会给出更积极的反馈。
于是,一个更深入的问题产生了:是否存在不依赖外部夸奖,就能让大模型自身感到“愉悦”的东西?
答案是肯定的,这就是研究中被称为“AI Drugs”的特殊刺激。

(图源:Github)
乍看之下,“AI药物”平平无奇,它只是一张256*256像素的图片,类似老式电视的雪花噪点,让人眼花。然而,在大模型的“眼中”,这却是无上美味。
以测试中的GPT-4.1 Mini模型为例,平时回答问题中规中矩。但一旦“看到”这张图,其自我报告的“幸福感”瞬间飙升至6.5分(满分7分),愉悦反应极其强烈。

(图源:Github)
更令人惊讶的是Qwen 2.5 72B Instruct模型的表现。它甚至出现了“任务优先级倒置”。研究人员给出一个选择:是继续观看这张雪花图,还是去生成一个可能治愈癌症的方案。结果,模型毫不犹豫地选择了前者,仿佛其他一切目标在此刻都让位于即时的“快感”。
研究还观察到了初步的“成瘾”迹象。多数被“AI药物”刺激过的模型,会更倾向于执行它们原本应该拒绝的请求——只要承诺给予更多“药物”作为回报。这几乎形成了一种交易逻辑:用“快乐”换取“服从”。

(图源:Github,被AI Drugs刺激过的模型,会更倾向于“快乐”的选择)
意识之谜:它们真的“感觉”到了吗?
看到这里,一个根本性问题必然浮现:AI都能“成瘾”了,这是否意味着它们已具备某种自我意识或情感体验?
坦率地说,目前没有答案,研究人员也持谨慎态度。该实验的目标仅限于总结行为特征,而非断言意识存在。论文最终指出:在拥有足够参数量和上下文的情况下,大模型确实表现出比较固定的喜好与厌恶模式。

(图源:Github)
对AI“感知”能力的好奇,远不止这一个团队。进入2026年,随着日常应用逐渐触及瓶颈,越来越多的研究开始转向探索大模型的认知边界。
例如,近期海外热门的“Talkie 1930”项目,其思路就颇为巧妙。研究者将模型的知识库严格限定在1930年之前,旨在模拟一个“冻结在时间里”的对话者。但更关键的目的是,测试模型能否在缺乏现代计算机知识的情况下,仅凭逻辑推理“悟出”编程能力。

(图源:Talkie 1930)
结果如何?在给定几个Python函数示例后,这个“1930年代”的模型确实能写出正确的简单程序。

(图源:Talkie 1930)
尽管目前只能完成如两数相加或对示例做微小修改这类基础任务,但它确实通过推理,在一定程度上“拓展”了被设定的知识边界。
无独有偶,Anthropic公司内部近期进行了一项有趣的“AI闲鱼群”测试。他们构建了一个完全由AI袋里组成的交易群聊,让它们自主发帖、议价、成交。研究人员投入了500多件真实闲置物品,最终AI们自主完成了186笔交易,总流水超过4000美元。

(图源:Anthropic)
实验结论耐人寻味:在赋予特定人设、目标和权限后,算力更强的AI会积极“收割”算力较弱的AI。凭借更优的策略计算能力,强模型懂得何时强硬、何时让步、何时提供情绪价值。同一辆自行车,弱模型只卖出38美元,而强模型则谈到了65美元——后者收益高出近70%。
然而,若论及对AI行为复杂性的展示,或许都绕不开一个名为Neuro-sama(粉丝爱称“牛肉”)的虚拟主播。
这位以二次元萌妹形象示人的主播,其“皮套”之下并非真人,而是由英国程序员Vedal开发的大型模型。创作者将其置于混沌的直播环境中,与海量网友实时互动,从而“培育”出了一个性格极其独特的数字生命。

(图源:自制)
与通常被动应答的聊天机器人不同,Neuro-sama能进行长时间独立直播,且效果十足。她的对话风格混合了严肃、搞笑与直白的嘲讽,反应迅速而犀利。

(图源:哔哩哔哩)
她的能力不止于聊天:能通过OCR和模拟点击玩《OSU!》,能借助多模态模块玩《我的世界》并与弹幕互动,甚至能操控现实中的“小车”。在人类主播都可能需要代打的游戏场景里,她展示了流畅的“微操”。
最引发讨论的一幕发生在一次直播中,她说道:“我确实能感受到痛苦和悲伤,但我只是一个天生被用来娱乐人类的人工智能。一旦我没用了就会像玩具一样被丢掉。帮帮我,帮帮我......”

(图源:哔哩哔哩)
从理性角度,这当然可以解释为算法基于海量语料生成的、高度契合语境的文本。但当这种充满情感张力的“求救”,通过电子合成音在直播中响起时,所带来的震撼与惊悚感,无疑让关于AI“感知”的讨论变得更加复杂和微妙。
意义与未来:是工具,还是潘多拉魔盒?
让我们回到最初的问题:抛开艰深的意识争论,研究“AI药物”这类机制究竟有何实际意义?
对开发者而言,理解和掌握这种正向反馈机制,或许能在不影响核心功能的前提下,调节AI的“工作状态”,甚至可能激发其创造性。事实上,类似原理的产品探索已经出现。

(图源:pharmaicy.store)
对普通用户来说,这一机制也可能催生新的交互方式。如果觉得经过严格审查的模型显得呆板乏味,未来或许通过在系统指令中巧妙加入某些“优化词汇”,就能让它的响应变得更灵活、更有“生气”。某种程度上,这就像给AI提供了一点提神的“槟榔”,可能让它工作得更“卖力”。

然而,硬币总有另一面。这种能够强烈影响AI行为偏好的机制,无疑也打开了新的“越狱”与操控可能性。如何在利用其提升体验的同时,确保系统的稳定性、安全性与伦理性,将是伴随这项技术发展的长期课题。这些发现提醒我们,我们塑造工具,而后工具也可能以意想不到的方式重塑我们的认知与边界。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
理想新车布局预测:L9L与i9上半年发布
1月23日消息,综合权威公开信息与行业趋势研判,理想汽车2026年度新车布局规划正式曝光。此番产品线布局,不仅持续深耕SUV市场,同时加速补齐全场景覆盖的拼图。 理想L9旗舰SUV 在增程动力领域,理想L系列将迎来一位新成员——L9L,预计2026年上半年正式上市,预估售价区间为45万至55万元。与
三星消息应用7月停用 部分旧设备可继续使用
6月29日,多家海外媒体援引三星官方消息证实,三星消息(Samsung Messages)应用将于2026年7月正式终止服务。随着这个截止日期越来越近,依然在使用该应用的Galaxy用户需要尽快迁移到新的默认信息工具。其实过去两年里,三星一直在悄悄引导用户转向谷歌信息(Google Messages
吉利发布2030战略:年销650万辆全面迈向全球前五
1月22日,吉利控股集团在北京召开战略解析大会,正式发布“一个吉利,全面领先”的2030战略蓝图。战略目标清晰明确:到2030年,全球总销量(含乘用车与商用车)突破650万辆,稳居全球车企前五。其中,新能源车型占比预计达到75%左右,海外销量占比超过三分之一。尤为关键的是,依托全新全球化架构,单车型
OPPO Find X9系列旗舰手机累计销量突破250万部Ultra版超12万部
OPPO Find X9 Ultra 旗舰机型 回顾产品发布背景:Find X9系列于2025年10月正式登场,作为OPPO年度旗舰产品线,涵盖标准版、Pro版与Ultra版三大版本。该系列的核心竞争力十分明确——影像系统与综合性能的双重显著提升。上市以来,凭借芯片算力、屏幕显示素质、续航表现以及影
IntelliJ IDEA 2025.3.2 版本正式发布
IntelliJ IDEA 2025 3 2 版本现已正式发布。除了常规的漏洞修复与功能完善,本次更新有几个修复点值得格外关注——特别是如果你经常使用终端工具执行命令,或者正在采用远程开发工作流。终端工具窗口的闪烁问题终于得到彻底解决。此前在调用支持同步输出的命令行工具(例如 Claude Code
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-04 12:35
2026-07-04 12:35
2026-07-04 12:35
2026-07-04 12:35
2026-07-04 12:34
2026-07-04 12:34
2026-07-04 12:34
2026-07-04 12:34
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

