当前位置: 首页
AI资讯
人工智能心智理论测试击败人类

人工智能心智理论测试击败人类

热心网友 时间:2026-05-28
转载

人工智能到底能不能理解我们?这个问题的答案,可能比我们想象的更复杂一些。

先说一个关键词——“心智理论”。说白了,就是指一个人理解他人心理状态的能力。正是这种能力让人类社会得以顺畅运转:它帮你在尴尬的场合知道该说什么,让你能预判隔壁车道司机的下一步动作,也让你看电影时能和角色产生共情。而最新研究显示,像ChatGPT这类工具背后的大语言模型,在模仿这种典型人类特质上,表现得相当出色。

“在进行这项研究之前,我们都相信大语言模型无法通过这些测试,特别是那些衡量不易察觉的心理状态能力的测试。”说这话的是克里斯蒂娜·贝奇奥(Cristina Becchio),德国汉堡-埃彭多夫大学医学中心的认知神经科学教授,也是这项研究的合著者。她坦言,结果“出乎意料和令人惊讶”。这份研究2024年5月20日发表在了《自然·人类行为》杂志上。

心智理论测试:人工智能击败人类

实际上,贝奇奥和她的同事并不是最早发现大语言模型能表现出这种推理能力的团队。早在2023年,斯坦福大学心理学家迈克尔·科辛斯基(Michal Kosinski)就在一篇预印本论文中报告了几个模型在常见心智理论测试中的表现。当时最好的结果是OpenAI的GPT-4,它正确完成了75%的任务——按照科辛斯基的说法,这相当于过去研究中6岁儿童的水平。不过,那项研究的方法后来遭到了不少批评。后续实验表明,大语言模型之所以能答对,更多是靠着“浅显的启发式捷径”,而非真正的心智理论推理。

本次研究的作者显然清楚这场争论。“我们的目标是用更系统的方法,通过广泛的心理测试来应对机器心智理论的评估挑战。”另一位合著者詹姆斯·斯特拉坎(James Strachan)说。他是一名认知心理学家,目前是汉堡-埃彭多夫大学医学中心的访问科学家。他强调,严谨的研究必须同时测试人类和大语言模型处理相同任务的能力——这项研究比较了1907个人和几个主流大语言模型的表现。

大语言模型和人类完成的是5种典型的心智理论测试。前三种分别是理解暗示、反语和失礼。此外,他们还回答了“错误信念”问题——这类问题通常用来判断幼儿心智理论的发展程度。举个例子:如果爱丽丝在鲍勃不在房间时挪动了某样东西,那鲍勃回来后应该去哪里找它?最后一套测试是“奇怪故事”中的复杂问题,故事里的人物相互撒谎、操纵,制造了大量误解。

结果令人瞩目。GPT-4在错误信念测试中得分与人类相当,在反语、暗示和奇怪故事方面的总分甚至高于人类,唯一逊色的是失礼测试。为了弄清楚为什么失礼测试会翻车,研究人员做了一系列后续测试来排查各种假说。结论是:GPT-4其实能正确回答有关失礼的问题,但OpenAI在模型周围设置了“极端保守”的编程限制。斯特拉坎解释说,这些围栏“旨在保持模型真实、诚实和正确”,而防止GPT-4产生幻觉的策略,反而可能阻碍它对一些问题输出观点——比如判断故事角色是否在高中同学聚会上无意间侮辱了老同学。

但研究人员保持了足够的谨慎。他们没有说研究结果表明大语言模型真的拥有心智理论能力,而是说它“在心智理论任务中的表现与人类行为没有区别”。这就引出了一个更棘手的问题:如果一个仿品和真品一样好,你怎么知道它不是真品?斯特拉坎说,社会科学家以前从未遇到过这种困境,因为对人类进行测试时,会默认这种品质是存在的。“目前我们还没有一种方法,甚至一种理念,来测试心智理论的存在——这是一种现象学品质。”他说。

当然,也有不买账的声音。华盛顿大学计算语言学教授艾米丽·本德(Emily Bender)因坚持戳破人工智能行业的膨胀炒作,几乎成了该领域的传奇人物。她对这个问题本身提出质疑:“面对相同问题,文本处理系统能否产生与人类相似的答案——这为什么如此重要?我们能了解大语言模型内部是如何运作的吗?它们可能有什么用处,又可能带来哪些危险?”

本德特别担心论文中的拟人化倾向。研究人员使用了“认知”、“推理”、“作出选择”这样的词来描述大语言模型,甚至提到了“大语言模型和人类参与者之间的物种公平比较”。本德一针见血地指出:这种说法“完全没有把软件涵盖在内”。

说到底,汉堡-埃彭多夫大学医学中心团队的研究结果,并不能证明人工智能真的能理解我们。但值得深思的是,当人工智能能做出如此令人信服的行为,意味着什么?一方面,大语言模型在与人类交互、预测用户需求方面确实会越来越好;但另一方面,它们也可能被用来欺骗和操纵。更重要的是,它们会引发更多的拟人化倾向,让用户相信对话界面的另一端,是一个有思想的灵魂。

这才是真正需要警惕的地方。

来源:https://m.elecfans.com/article/6337235.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
天枢社会情绪认知大模型现已正式上线

天枢社会情绪认知大模型现已正式上线

当舆情管理步入AI时代,品牌治理的底层逻辑正迎来全新重构。 在“智驭品牌 数启未来”2026山东最具影响力品牌暨人工智能赋能品牌管理创新大会上,一款名为“天枢·社会情绪认知大模型”的创新产品正式亮相。该模型由山东数字文化集团主导研发,其核心能力非常明确:全天候实时感知社会情绪波动,并执行智能归因分析

时间:2026-05-29 07:13
比亚迪官宣2026年将部署2万台人形机器人

比亚迪官宣2026年将部署2万台人形机器人

比亚迪终于对外发声了。 日前,比亚迪执行副总裁李柯在投资者服务平台“股东星球”的专访中,首次正面回应了外界关于人形机器人业务的询问,并且详细描绘了一幅完整的战略蓝图。这是比亚迪高管首次公开谈及人形机器人赛道——信号意义,不言而喻。 作为全球新能源汽车的领军企业,比亚迪2025年全年营收首次突破800

时间:2026-05-29 07:13
OpenAI修复ChatGPT及API服务高延迟问题

OpenAI修复ChatGPT及API服务高延迟问题

OpenAI 服务突遭高延迟,连夜抢修后基本恢复 5月27日,OpenAI 通过社交平台 X 发布了一则不太常见的公告——ChatGPT 及其 API 服务出现了明显的响应延迟。如果你在那个时间段正好在跟 ChatGPT 对话,应该能感受到:提问之后总得等上好一会儿才能看到回复。北京时间的凌晨时段,

时间:2026-05-29 07:13
用Merge Styles插件快速合并Figma重复颜色样式

用Merge Styles插件快速合并Figma重复颜色样式

利用MergeStyles插件可快速合并Figma中重复的颜色样式。安装授权后,插件自动扫描并按色值分组,一键合并重复组,再手动清理未用冗余样式,即可高效整理样式面板,减少冗余,避免手动比对,大幅简化工作流。

时间:2026-05-29 07:10
从零开始基于AX650N的SegFormer语义分割模型部署详细教程

从零开始基于AX650N的SegFormer语义分割模型部署详细教程

基于AX650N端侧芯片部署SegFormer语义分割模型,通过分层Transformer编码器与轻量MLP解码器实现高效分割。从ONNX导出、onnxsim优化、添加argmax输出头,到Pulsar2编译,全流程在AX650N上完成,推理一张640×1280街景图像仅需48毫秒,后处理7毫秒,满足边缘实时需求。

时间:2026-05-29 07:09
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程