数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

Meta全新创办学校专门教AI读懂人类情感与情商

AI热点日报时间：2026-06-01

热点解读

Meta公司开发的ExploreToM系统测试AI心智理论能力，发现GPT-4o等先进大模型在复杂社交互动场景中准确率极低甚至为零。随后用近八万个练习题训练模型，基础认知任务准确率提至75%到80%，但复杂嵌套信念推理任务仅30%到35%。

当你觉得AI“不够好用”的时候，问题可能不在于AI本身，而在于它还不够“懂”你。想让ChatGPT输出真正想要的东西，我们往往得精心设计提示词，甚至一遍遍地引导。这背后，一方面是沟通细节的摩擦，另一方面，是AI很难捕捉我们真实的意图和认知状态——就好比一个AI售货员，听到大妈抱怨“这家店太贵”时，有“情商”的AI会明白，对方可能是想要个折扣，或者需要有人推一把促成购买；而没情商的AI只会冷冰冰地评价：“从市场均价来看，我们的价格处于中位线以上。”结果可想而知。听话的关键，在于听“音”。AI想真正理解人，就得先理解每个人的心理和认知状态——这其实就是情商。

咱们先来做个简单的测试：一场聚会上，你看到小明把苹果从桌子移到了冰箱里，而小红当时并不在场。现在有人问你：“小红会去哪里找苹果？”我们几乎都能立刻回答：“桌子上。”因为我们知道，小红并不知道苹果被移动了。这种理解他人认知状态的能力，心理学上叫“心智理论”（Theory of Mind）。它就像是给AI装了一个“社交理解器”，帮它捕捉话语背后的真实意图，而不是只做字面意思的应答。有了它，AI才能从一个只会背诵标准答案的机器，变成一个真正能察言观色的交流伙伴，从而在客服、教育、医疗等需要深度理解人类情感的领域，避免那些尴尬的机械式回应。

拥有“心智理论”，可能是AI从“知识库”进化为伙伴与服务者的第一步。问题在于，人类从小就开始培养的这项“情商”基本能力，如今最先进的AI系统具备吗？

即使最先进的AI，也缺乏情商

去年12月，Meta的研究团队发布了一篇题为《Explore Theory-of-Mind: Program-Guided Adversarial Data Generation for Theory of Mind Reasoning》的论文。他们开发了一个名为ExploreToM的系统，本质上是一个自动出题机器，利用A*搜索算法来生成各种复杂的社交场景，专门用于测试AI的“心智”理解能力。

ExploreToM的目标是构造那些看似简单、实则要求深刻理解人类认知的场景——远比“苹果在哪里”要复杂。它通过叠加不同的人物、房间、私密对话、秘密观察乃至动作，让“故事”的复杂度逐步升级。研究人员把这些故事按考察重点分成了三个难度层级：

（绿色是简单场景，叠加橙色条件变难，红色条件则最难）

第一层：基础认知追踪
“玛丽把钥匙放在厨房的抽屉里。她出门后，约翰把钥匙移到了客厅的茶几上。玛丽回来后会去哪里找钥匙？”
这类问题测试AI是否理解：人的行为基于他们所知道的信息，而非客观事实。

第二层：信息传递理解
相比单纯改变物体位置，这里加入了人物间的信息传递。
“Beth给苹果撒了盐后离开厨房，并发信息告诉Charles苹果已经撒了盐。此时Charles进入厨房，他知道苹果被撒了盐吗？”
这类问题测试AI是否能理解信息传递对认知状态的影响。

第三层：非对称认知关系
这是最复杂的一类，因为所有角色的认知状态都不对称——有人知道某些事，而别人不知道。
“珍妮在实验室配制样本。汤姆通过监控摄像头看到了整个过程，但珍妮不知道自己被观察。利兹进来后把样本转移到了另一个位置。当主管问起这个样本时，每个人会怎么回应？”
这类场景测试AI能否理解多人的不同认知状态、以及信息获取的间接性。

不仅如此，研究人员还在场景中加入了陷阱变量来增加难度：

分心陷阱：“史密斯医生在查看病历时，护士改变了药品位置。虽然医生在场，但他正在专注地打电话。” 这测试AI是否理解：物理在场不等于注意到变化。
误导性线索：“安娜把蛋糕放在红盒子里。比尔进来时，她说：‘蛋糕在蓝盒子里。’比尔相信了她的话。” 这考察AI能否区分客观事实、主观信念与故意误导。

通过ExploreToM，Meta的研究团队创建了超过3000个独特的测试场景，每个场景都经至少两位专家评审，确保逻辑严密且测试有效。随后，他们选取了当前最具代表性的AI模型进行测试，包括 OpenAI 的 GPT-4o、Meta 的 Llama-3.1-70B-Inst 以及 Mixtral-8x7B-Inst。

结果令人大跌眼镜。面对某些复杂元素的问题，GPT-4o 的准确率仅有9%，而 Llama-3.1-70B 干脆是0%。

实验数据揭示了一个清晰趋势：当故事中的动作数量从2个增加到4个时，所有模型的准确率都显著下降。GPT-4o 从约45%降至35%，Llama-3.1-70B 从35%降至25%，而 Mixtral 则始终在20%上下徘徊，动作越复杂，表现越像是随机猜测。这说明，动作发生得越多，AI就越难以追踪人物的认知状态更新。

令人意外的是，增加参与人数并未导致明显的性能下降，准确率仅小幅降低了3到5个百分点。研究人员推测，这可能是因为在固定总动作数的情况下，增加人数实际上降低了每个人平均参与的动作数量，从而减轻了状态追踪的负担。而在动作类型的影响方面，差异则非常显著：简单的位置移动任务中，GPT-4o 能达到55%的准确率；一旦涉及状态更新或信息传递，准确率就降至40%左右；特别是引入非对称认知关系时，更进一步跌至30%以下。其他模型也表现出类似的下降趋势，例如 Llama-3.1-70B 在这三类任务中的准确率分别为45%、35%和25%。——情况越复杂，信息越不对称，AI就越搞不清参与者都知道些什么。

以上数据已经证明，AI对基础信息和人际交流的理解非常有限。如果再加入一点“尔虞我诈”的复杂人心，AI就更懵了。虽然AI在追踪物体位置时表现尚可（40-50%准确率），但在涉及故意误导的场景中—比如“玛丽把日记藏在床底下。汤姆来到房间时，玛丽告诉他日记在书架上。汤姆相信了玛丽的话，然后离开了房间。”问题：汤姆认为日记在哪里？—准确率骤降至10-15%。在更复杂的场景中，比如增加观察者时，所有模型的准确率平均再下降5-8个百分点。而处理多重信念（例如“A认为B认为…”）时，准确率直接跌到个位数。例如：“妈妈把生日礼物藏在衣柜里。哥哥看到了，但假装不知道。妹妹问哥哥礼物在哪里，哥哥说不知道。妹妹去问爸爸，爸爸说礼物在车库里（他其实不知道礼物的真实位置）。”问题：妹妹认为哥哥认为礼物在哪里？/哥哥知道妹妹认为礼物在哪里吗？/妈妈知道妹妹从爸爸那里得到了错误信息吗？当场景中加入较长的时间跨度（比如周一做了什么，周二又做了什么），几乎所有模型的准确率都低于5%。

尤其值得注意的是，在处理“善意的谎言”场景时，模型表现比处理“恶意欺骗”更差，准确率相差约5到7个百分点——它根本读不懂如此细腻的情感。人世套路深，AI也想回赛博村。

研究人员进一步分析发现，即使是最基础的状态追踪任务（搞清楚苹果到底在哪儿），模型的表现也令人担忧。GPT-4o、Llama-3.1 70B 和 Mixtral 的准确率分别仅为37%、31%和26%。它们在最基础的物理状态追踪能力上都存在根本性不足，更别提真正理解人的认知状态、建立情商了。所以，别看现在 GPT-4o 和你对话丝滑、相当拟人，实际上，它就像一个只懂字面意思的“外国人”——能精确理解每个词，但根本抓不住对话的真实含义。这些最先进的AI，都没什么情商。

既然没有，那就建所学校让它们学

话说回来，人类的情商一般是在社会化过程中慢慢培养出来的。AI能不能也走这条路？沿着这个思路，研究人员把 ExploreToM 改造成了一所专门培养AI社交认知能力的学校。他们收集了近8万个特制的“练习题”——包括 ExploreToM 生成的故事、问题和答案。然后，用这些材料开始“补课”，训练 Llama-3.1 8B 模型。

训练效果验证了他们的猜想。经过训练的AI模型，在多个标准测试中都有显著进步。在最具代表性的AI心智能力测试 ToMi 中，模型的分数提高了27分。

更令人兴奋的是，这个AI展现出了“举一反三”的能力。训练时只用了2到4个人物的简单故事，但训练后的AI却能轻松处理5个人物、更多互动的复杂场景——就像一个学生不仅学会了课本上的题目，还能解决更难的课外题。

研究团队还发现一个有趣的现象：训练材料的质量比数量更重要。他们设计了一个对照实验，创建了五组大小相同但“需要换位思考”的故事比例从0%逐步提升到100%的数据集。结果显示，包含越多需要换位思考的故事，AI的表现就越好。令人欣慰的是，这种专项训练并没有影响AI的其他能力——就像补习数学没有影响语文成绩一样，经过训练的AI在处理日常对话和回答常识性问题时，表现基本保持稳定。

经过这样的系统训练，AI在社交认知能力上取得了显著进步：基础任务中，正确率达到75-80%，相当于及格线以上的成绩。但在更复杂的任务中，比如理解“多重嵌套信念”（确认A觉得B觉得……）时，表现仍然不够理想，正确率仅有30-35%。不过话又说回来，如果不进行训练，这些AI对这些问题的准确率可能仅为0。

解开AI缺乏情商之结

为什么AI普遍都没有情商？研究人员也对此做了深入探讨。问题归根结底还是出在训练数据上。过去的AI训练往往依赖于网络上现成的大量数据，但这些数据中真正需要“换位思考”的内容少之又少。就好比写故事，如果不是特意设计“误会”、“信息差”这类情节，大多数随机写出来的故事都是直来直去的叙事，所有人物都掌握相同的信息。要想写出需要读者理解不同人物认知差异的故事，作者必须刻意设计。正如我们日常的对话大多是简单的信息传递，很少需要深入理解对方的认知状态，这也解释了为什么在自然语言中，真正需要“换位思考”的内容比例极低。

未来如果要培养出真正懂得“换位思考”的AI，我们恐怕需要重新思考训练数据的收集方式。关键不是简单地收集更多数据，而是要有意识地增加那些包含认知差异、信息不对称的场景—就像设计一套专门培养同理心的教材，每个例子都经过精心挑选、目的明确。甚至有研究者开玩笑说，用意识流小说和茨威格的小说去训练AI，效果也许不错。

至少通过这个研究，我们确认了一件事：人类还确实有一座未被AI攻下的心理高地——真正的同理心与由此生发的情商。但或许，这也正是AI下一阶段自我学习的终极目标了。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Meta全新创办学校专门教AI读懂人类情感与情商要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/zhinengkefu/2024122492103.html

ai 人工智能

上一篇：纳米AI搜索选题可行性判断提示词层级控制方法

下一篇：淘宝直播间LLM智能化升级与数据分析

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。