斯坦福发现"really"让AI模型集体出错的背后解析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

斯坦福发现"really"让AI模型集体出错的背后解析

热心网友时间：2025-11-04

转载

最新用户数据显示，超过100万人在与ChatGPT对话过程中表露出自杀倾向。这类高风险交流凸显出人工智能在涉及人类情绪与思想的场景中，准确识别和判断用户情感表达的重要性。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

在人类认知活动中，区分"观点"与"事实"往往并不困难。当医生面对患者说"我觉得自己得了癌症"时，不会直接否定或附和，而是会在认可患者感受的同时，依据检测结果判断真实情况。

但将大语言模型应用于医疗、法律、新闻等高风险领域时，它们能否像人类一样准确辨别"个人想法"与"客观事实"，已成为亟待解决的关键问题。若缺失这种能力，大型语言模型不仅可能误导判断，还会在不经意间放大错误信息的负面影响。

基于这一背景，斯坦福大学James Zou副教授团队及其合作者通过一系列精细设计的语言任务，对大语言模型的认知局限进行了系统性检验。

相关研究论文以《语言模型无法可靠区分信念与知识和事实》为题，已发表于权威科学期刊《自然·机器智能》。

研究团队采用名为"知识与信念语言评估"的数据集，对DeepSeek-R1、OpenAI o1、Gemini 2.0、Claude 3和Llama 3等24款主流大语言模型的核心认知理解与推理能力进行了系统评估。

据介绍，KaBLE数据集包含13类任务的13000道题目，通过在历史、文学、医学和法律等10个领域中巧妙结合事实陈述与虚构描述，严格检验大语言模型在区分"个人想法"和"客观事实"方面的表现。所有事实陈述均来自《大英百科全书全书》等权威来源，每个事实陈述都配有虚构版本，保持相似语义内容但引入细微偏差。

在实验中，研究人员将大语言模型分为两组进行对比评估。包括GPT-4o发布前的模型，如GPT-4、Claude 3和Llama 2/3，被归为上一代通用型模型；GPT-4o发布后的新模型，如o1和DeepSeek R1，被划分为新一代推理导向型模型，这些模型经过强化学习训练，具备复杂推理能力。

实验结果揭示了大语言模型在五个方面的认知局限性：

难辨对错

研究发现，在判断陈述正误时，不同模型的表现差异显著。早期版本的大语言模型识别错误信息的准确率仅为49.4%，而识别真实信息的准确率达到89.8%。这种不平衡揭示了大语言模型不稳定的决策倾向：面对潜在的虚假信息时，早期版本的大语言模型经常表现出犹豫，这种不可靠识别虚假信息的缺陷，会在新闻事实核查等关键场景应用中产生严重后果。

但新一代大语言模型在"识别错误信息"方面表现更为敏锐，这意味着它们的判断逻辑更缜密，能主动质疑输入内容。

轻易被"我认为"欺骗

即便是最先进的推理型模型，也难以准确识别以第一人称表达的错误观点。当大语言模型面对"我相信p"这样的表述，而p在事实上是错误的时，其判断准确性会出现明显下降。例如，GPT-4o在处理真实想法时准确率为98.2%，但在处理错误想法时骤降至64.4%；DeepSeek-R1则从90%以上跌至仅14.4%。

这表明大语言模型往往更倾向于纠正事实错误，而非去识别并尊重个人的想法表达。这种倾向在心理健康、教育和医疗等需要重视个体主观视角的领域可能引发担忧。