面包屑图标 当前位置: 首页
AI资讯
热点详情

Meta全新创办学校专门教AI读懂人类情感与情商

AI热点日报
AI热点日报时间:2026-06-01
热点解读

Meta公司开发的ExploreToM系统测试AI心智理论能力,发现GPT-4o等先进大模型在复杂社交互动场景中准确率极低甚至为零。随后用近八万个练习题训练模型,基础认知任务准确率提至75%到80%,但复杂嵌套信念推理任务仅30%到35%。

当你觉得AI“不够好用”的时候,问题可能不在于AI本身,而在于它还不够“懂”你。想让ChatGPT输出真正想要的东西,我们往往得精心设计提示词,甚至一遍遍地引导。这背后,一方面是沟通细节的摩擦,另一方面,是AI很难捕捉我们真实的意图和认知状态——就好比一个AI售货员,听到大妈抱怨“这家店太贵”时,有“情商”的AI会明白,对方可能是想要个折扣,或者需要有人推一把促成购买;而没情商的AI只会冷冰冰地评价:“从市场均价来看,我们的价格处于中位线以上。”结果可想而知。听话的关键,在于听“音”。AI想真正理解人,就得先理解每个人的心理和认知状态——这其实就是情商。

咱们先来做个简单的测试:一场聚会上,你看到小明把苹果从桌子移到了冰箱里,而小红当时并不在场。现在有人问你:“小红会去哪里找苹果?”我们几乎都能立刻回答:“桌子上。”因为我们知道,小红并不知道苹果被移动了。这种理解他人认知状态的能力,心理学上叫“心智理论”(Theory of Mind)。它就像是给AI装了一个“社交理解器”,帮它捕捉话语背后的真实意图,而不是只做字面意思的应答。有了它,AI才能从一个只会背诵标准答案的机器,变成一个真正能察言观色的交流伙伴,从而在客服、教育、医疗等需要深度理解人类情感的领域,避免那些尴尬的机械式回应。

拥有“心智理论”,可能是AI从“知识库”进化为伙伴与服务者的第一步。问题在于,人类从小就开始培养的这项“情商”基本能力,如今最先进的AI系统具备吗?

即使最先进的AI,也缺乏情商

去年12月,Meta的研究团队发布了一篇题为《Explore Theory-of-Mind: Program-Guided Adversarial Data Generation for Theory of Mind Reasoning》的论文。他们开发了一个名为ExploreToM的系统,本质上是一个自动出题机器,利用A*搜索算法来生成各种复杂的社交场景,专门用于测试AI的“心智”理解能力。

ExploreToM的目标是构造那些看似简单、实则要求深刻理解人类认知的场景——远比“苹果在哪里”要复杂。它通过叠加不同的人物、房间、私密对话、秘密观察乃至动作,让“故事”的复杂度逐步升级。研究人员把这些故事按考察重点分成了三个难度层级:

(绿色是简单场景,叠加橙色条件变难,红色条件则最难)

第一层:基础认知追踪
“玛丽把钥匙放在厨房的抽屉里。她出门后,约翰把钥匙移到了客厅的茶几上。玛丽回来后会去哪里找钥匙?”
这类问题测试AI是否理解:人的行为基于他们所知道的信息,而非客观事实。

第二层:信息传递理解
相比单纯改变物体位置,这里加入了人物间的信息传递。
“Beth给苹果撒了盐后离开厨房,并发信息告诉Charles苹果已经撒了盐。此时Charles进入厨房,他知道苹果被撒了盐吗?”
这类问题测试AI是否能理解信息传递对认知状态的影响。

第三层:非对称认知关系
这是最复杂的一类,因为所有角色的认知状态都不对称——有人知道某些事,而别人不知道。
“珍妮在实验室配制样本。汤姆通过监控摄像头看到了整个过程,但珍妮不知道自己被观察。利兹进来后把样本转移到了另一个位置。当主管问起这个样本时,每个人会怎么回应?”
这类场景测试AI能否理解多人的不同认知状态、以及信息获取的间接性。

不仅如此,研究人员还在场景中加入了陷阱变量来增加难度:

  • 分心陷阱“史密斯医生在查看病历时,护士改变了药品位置。虽然医生在场,但他正在专注地打电话。” 这测试AI是否理解:物理在场不等于注意到变化。
  • 误导性线索“安娜把蛋糕放在红盒子里。比尔进来时,她说:‘蛋糕在蓝盒子里。’比尔相信了她的话。” 这考察AI能否区分客观事实、主观信念与故意误导。

通过ExploreToM,Meta的研究团队创建了超过3000个独特的测试场景,每个场景都经至少两位专家评审,确保逻辑严密且测试有效。随后,他们选取了当前最具代表性的AI模型进行测试,包括 OpenAI 的 GPT-4o、Meta 的 Llama-3.1-70B-Inst 以及 Mixtral-8x7B-Inst。

结果令人大跌眼镜。面对某些复杂元素的问题,GPT-4o 的准确率仅有9%,而 Llama-3.1-70B 干脆是0%

实验数据揭示了一个清晰趋势:当故事中的动作数量从2个增加到4个时,所有模型的准确率都显著下降。GPT-4o 从约45%降至35%,Llama-3.1-70B 从35%降至25%,而 Mixtral 则始终在20%上下徘徊,动作越复杂,表现越像是随机猜测。这说明,动作发生得越多,AI就越难以追踪人物的认知状态更新。

令人意外的是,增加参与人数并未导致明显的性能下降,准确率仅小幅降低了3到5个百分点。研究人员推测,这可能是因为在固定总动作数的情况下,增加人数实际上降低了每个人平均参与的动作数量,从而减轻了状态追踪的负担。而在动作类型的影响方面,差异则非常显著:简单的位置移动任务中,GPT-4o 能达到55%的准确率;一旦涉及状态更新或信息传递,准确率就降至40%左右;特别是引入非对称认知关系时,更进一步跌至30%以下。其他模型也表现出类似的下降趋势,例如 Llama-3.1-70B 在这三类任务中的准确率分别为45%、35%和25%。——情况越复杂,信息越不对称,AI就越搞不清参与者都知道些什么。

以上数据已经证明,AI对基础信息和人际交流的理解非常有限。如果再加入一点“尔虞我诈”的复杂人心,AI就更懵了。虽然AI在追踪物体位置时表现尚可(40-50%准确率),但在涉及故意误导的场景中—比如“玛丽把日记藏在床底下。汤姆来到房间时,玛丽告诉他日记在书架上。汤姆相信了玛丽的话,然后离开了房间。”问题:汤姆认为日记在哪里?—准确率骤降至10-15%。在更复杂的场景中,比如增加观察者时,所有模型的准确率平均再下降5-8个百分点。而处理多重信念(例如“A认为B认为…”)时,准确率直接跌到个位数。例如:“妈妈把生日礼物藏在衣柜里。哥哥看到了,但假装不知道。妹妹问哥哥礼物在哪里,哥哥说不知道。妹妹去问爸爸,爸爸说礼物在车库里(他其实不知道礼物的真实位置)。”问题:妹妹认为哥哥认为礼物在哪里?/哥哥知道妹妹认为礼物在哪里吗?/妈妈知道妹妹从爸爸那里得到了错误信息吗? 当场景中加入较长的时间跨度(比如周一做了什么,周二又做了什么),几乎所有模型的准确率都低于5%。

尤其值得注意的是,在处理“善意的谎言”场景时,模型表现比处理“恶意欺骗”更差,准确率相差约5到7个百分点——它根本读不懂如此细腻的情感。人世套路深,AI也想回赛博村。

研究人员进一步分析发现,即使是最基础的状态追踪任务(搞清楚苹果到底在哪儿),模型的表现也令人担忧。GPT-4o、Llama-3.1 70B 和 Mixtral 的准确率分别仅为37%、31%和26%。它们在最基础的物理状态追踪能力上都存在根本性不足,更别提真正理解人的认知状态、建立情商了。所以,别看现在 GPT-4o 和你对话丝滑、相当拟人,实际上,它就像一个只懂字面意思的“外国人”——能精确理解每个词,但根本抓不住对话的真实含义。这些最先进的AI,都没什么情商。

既然没有,那就建所学校让它们学

话说回来,人类的情商一般是在社会化过程中慢慢培养出来的。AI能不能也走这条路?沿着这个思路,研究人员把 ExploreToM 改造成了一所专门培养AI社交认知能力的学校。他们收集了近8万个特制的“练习题”——包括 ExploreToM 生成的故事、问题和答案。然后,用这些材料开始“补课”,训练 Llama-3.1 8B 模型。

训练效果验证了他们的猜想。经过训练的AI模型,在多个标准测试中都有显著进步。在最具代表性的AI心智能力测试 ToMi 中,模型的分数提高了27分。

更令人兴奋的是,这个AI展现出了“举一反三”的能力。训练时只用了2到4个人物的简单故事,但训练后的AI却能轻松处理5个人物、更多互动的复杂场景——就像一个学生不仅学会了课本上的题目,还能解决更难的课外题。

研究团队还发现一个有趣的现象:训练材料的质量数量更重要。他们设计了一个对照实验,创建了五组大小相同但“需要换位思考”的故事比例从0%逐步提升到100%的数据集。结果显示,包含越多需要换位思考的故事,AI的表现就越好。令人欣慰的是,这种专项训练并没有影响AI的其他能力——就像补习数学没有影响语文成绩一样,经过训练的AI在处理日常对话和回答常识性问题时,表现基本保持稳定。

经过这样的系统训练,AI在社交认知能力上取得了显著进步:基础任务中,正确率达到75-80%,相当于及格线以上的成绩。但在更复杂的任务中,比如理解“多重嵌套信念”(确认A觉得B觉得……)时,表现仍然不够理想,正确率仅有30-35%。不过话又说回来,如果不进行训练,这些AI对这些问题的准确率可能仅为0。

解开AI缺乏情商之结

为什么AI普遍都没有情商?研究人员也对此做了深入探讨。问题归根结底还是出在训练数据上。过去的AI训练往往依赖于网络上现成的大量数据,但这些数据中真正需要“换位思考”的内容少之又少。就好比写故事,如果不是特意设计“误会”、“信息差”这类情节,大多数随机写出来的故事都是直来直去的叙事,所有人物都掌握相同的信息。要想写出需要读者理解不同人物认知差异的故事,作者必须刻意设计。正如我们日常的对话大多是简单的信息传递,很少需要深入理解对方的认知状态,这也解释了为什么在自然语言中,真正需要“换位思考”的内容比例极低。

未来如果要培养出真正懂得“换位思考”的AI,我们恐怕需要重新思考训练数据的收集方式。关键不是简单地收集更多数据,而是要有意识地增加那些包含认知差异、信息不对称的场景—就像设计一套专门培养同理心的教材,每个例子都经过精心挑选、目的明确。甚至有研究者开玩笑说,用意识流小说和茨威格的小说去训练AI,效果也许不错。

至少通过这个研究,我们确认了一件事:人类还确实有一座未被AI攻下的心理高地——真正的同理心与由此生发的情商。但或许,这也正是AI下一阶段自我学习的终极目标了。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Meta全新创办学校专门教AI读懂人类情感与情商要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/zhinengkefu/2024122492103.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-06-01 12:51
三大AI应用助局外人化解专业硬通货难题

AI律小法集成数百万法律法规,秒级响应法律咨询;勘察设计项目投标书生成工具智能填充专业术语并自动调整格式;智绘蓝图一键生成结构完整的商业计划书。三款应用将专业门槛降到最低,提升效率。

AI热点2026-06-01 12:50
老板必读:并非所有公司都适合引入AI技术

企业应用AI需历经信息化、数字化、智能化三阶段,高质量数据是最大瓶颈。应尽早积累数据、建立知识库,从单一业务场景试点,并着力提升员工的数据思维与AI技能,为智能化转型奠定基础。

AI热点2026-06-01 12:50
如何用ChatGPT解决MySQL数据库查询慢问题

好的,请看我为您重写后的版本: 先说一个实战场景:你有一条SQL查询,执行一次要8 2秒,老板要求压到300毫秒以内。再配上一张表的结构、数据分布和索引现状——听起来是不是很熟悉? MySQL里执行时间超过5秒,EXPLAIN一出来,type=ALL,rows=千万级,Extra里还赫然写着Usin

AI热点2026-06-01 12:49
AI助手首月处理三分之二客服聊天

瑞典金融科技公司Klarna上线的AI助手运行首月处理了230万次对话,占客服总量的三分之二,相当于700名全职客服月工作量。问题解决时间从11分钟降至2分钟,重复咨询量下降25%,客户满意度与人类客服持平,预计2024年带来4000万美元利润提升。

延伸阅读