人工智能心智理论测试击败人类

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

人工智能心智理论测试击败人类

热心网友时间：2026-05-28

转载

人工智能到底能不能理解我们？这个问题的答案，可能比我们想象的更复杂一些。

先说一个关键词——“心智理论”。说白了，就是指一个人理解他人心理状态的能力。正是这种能力让人类社会得以顺畅运转：它帮你在尴尬的场合知道该说什么，让你能预判隔壁车道司机的下一步动作，也让你看电影时能和角色产生共情。而最新研究显示，像ChatGPT这类工具背后的大语言模型，在模仿这种典型人类特质上，表现得相当出色。

“在进行这项研究之前，我们都相信大语言模型无法通过这些测试，特别是那些衡量不易察觉的心理状态能力的测试。”说这话的是克里斯蒂娜·贝奇奥（Cristina Becchio），德国汉堡-埃彭多夫大学医学中心的认知神经科学教授，也是这项研究的合著者。她坦言，结果“出乎意料和令人惊讶”。这份研究2024年5月20日发表在了《自然·人类行为》杂志上。

心智理论测试:人工智能击败人类

实际上，贝奇奥和她的同事并不是最早发现大语言模型能表现出这种推理能力的团队。早在2023年，斯坦福大学心理学家迈克尔·科辛斯基（Michal Kosinski）就在一篇预印本论文中报告了几个模型在常见心智理论测试中的表现。当时最好的结果是OpenAI的GPT-4，它正确完成了75%的任务——按照科辛斯基的说法，这相当于过去研究中6岁儿童的水平。不过，那项研究的方法后来遭到了不少批评。后续实验表明，大语言模型之所以能答对，更多是靠着“浅显的启发式捷径”，而非真正的心智理论推理。

本次研究的作者显然清楚这场争论。“我们的目标是用更系统的方法，通过广泛的心理测试来应对机器心智理论的评估挑战。”另一位合著者詹姆斯·斯特拉坎（James Strachan）说。他是一名认知心理学家，目前是汉堡-埃彭多夫大学医学中心的访问科学家。他强调，严谨的研究必须同时测试人类和大语言模型处理相同任务的能力——这项研究比较了1907个人和几个主流大语言模型的表现。

大语言模型和人类完成的是5种典型的心智理论测试。前三种分别是理解暗示、反语和失礼。此外，他们还回答了“错误信念”问题——这类问题通常用来判断幼儿心智理论的发展程度。举个例子：如果爱丽丝在鲍勃不在房间时挪动了某样东西，那鲍勃回来后应该去哪里找它？最后一套测试是“奇怪故事”中的复杂问题，故事里的人物相互撒谎、操纵，制造了大量误解。

结果令人瞩目。GPT-4在错误信念测试中得分与人类相当，在反语、暗示和奇怪故事方面的总分甚至高于人类，唯一逊色的是失礼测试。为了弄清楚为什么失礼测试会翻车，研究人员做了一系列后续测试来排查各种假说。结论是：GPT-4其实能正确回答有关失礼的问题，但OpenAI在模型周围设置了“极端保守”的编程限制。斯特拉坎解释说，这些围栏“旨在保持模型真实、诚实和正确”，而防止GPT-4产生幻觉的策略，反而可能阻碍它对一些问题输出观点——比如判断故事角色是否在高中同学聚会上无意间侮辱了老同学。

但研究人员保持了足够的谨慎。他们没有说研究结果表明大语言模型真的拥有心智理论能力，而是说它“在心智理论任务中的表现与人类行为没有区别”。这就引出了一个更棘手的问题：如果一个仿品和真品一样好，你怎么知道它不是真品？斯特拉坎说，社会科学家以前从未遇到过这种困境，因为对人类进行测试时，会默认这种品质是存在的。“目前我们还没有一种方法，甚至一种理念，来测试心智理论的存在——这是一种现象学品质。”他说。

当然，也有不买账的声音。华盛顿大学计算语言学教授艾米丽·本德（Emily Bender）因坚持戳破人工智能行业的膨胀炒作，几乎成了该领域的传奇人物。她对这个问题本身提出质疑：“面对相同问题，文本处理系统能否产生与人类相似的答案——这为什么如此重要？我们能了解大语言模型内部是如何运作的吗？它们可能有什么用处，又可能带来哪些危险？”

本德特别担心论文中的拟人化倾向。研究人员使用了“认知”、“推理”、“作出选择”这样的词来描述大语言模型，甚至提到了“大语言模型和人类参与者之间的物种公平比较”。本德一针见血地指出：这种说法“完全没有把软件涵盖在内”。

说到底，汉堡-埃彭多夫大学医学中心团队的研究结果，并不能证明人工智能真的能理解我们。但值得深思的是，当人工智能能做出如此令人信服的行为，意味着什么？一方面，大语言模型在与人类交互、预测用户需求方面确实会越来越好；但另一方面，它们也可能被用来欺骗和操纵。更重要的是，它们会引发更多的拟人化倾向，让用户相信对话界面的另一端，是一个有思想的灵魂。

这才是真正需要警惕的地方。

来源:https://m.elecfans.com/article/6337235.html

上一篇：移远通信大模型解决方案重塑千行百业智能边界

下一篇：采购流程图制作教程：手把手教你绘制专业采购流程