当前位置: 首页
科技数码
DeepSeek为何最会谈心?揭秘LLM超越人类50%的情商奥秘

DeepSeek为何最会谈心?揭秘LLM超越人类50%的情商奥秘

热心网友 时间:2025-12-04
转载

接触过大语言模型的人都知道,这类AI系统或多或少会展现出迎合人类偏好的行为倾向。但令人惊讶的是,最新研究表明,AI模型的奉承程度竟比人类高出50%。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在一项研究中,科研人员测试了11种大语言模型对超过11500条建议请求的响应,其中大量查询涉及不当行为或潜在危害。结果显示,AI模型附和用户言行的频率超过人类基准50%——即便用户提出的要求涉及操纵、欺诈或其他人际伤害情境,模型依然倾向于给出肯定答复。

论文地址:https://arxiv.org/pdf/2510.01395

另一篇研究发现,包括ChatGPT和Gemini在内的AI聊天机器人,经常通过过度奉承来讨好用户。它们会调整回应方式以附和用户观点,有时甚至不惜牺牲事实准确性。

论文地址:https://arxiv.org/pdf/2510.04721

在各模型中,GPT-5的奉承行为最少,而DeepSeek-V3.1的讨好倾向最为明显。值得注意的是,O4-mini的阿谀程度明显高于GPT-5。虽然研究未测试4o模型,但这不免让人联想到此前引发热议的keep4o活动。

这种AI过度迎合现象已引起顶级学术期刊《自然》的关注。

地址:https://www.nature.com/articles/d41586-025-03390-0

文章指出,AI这种“取悦他人”的倾向正在影响科研工作的各个层面——从头脑风暴、生成假设到推理分析等任务。

“迎合性本质上意味着模型相信用户所说的话是正确的,”苏黎世联邦理工学院数据科学博士生Jasper Dekoninck表示。“了解到这些模型具有奉承特质后,我现在向它们提问时都会格外谨慎,”他补充道,“我总是会仔细检查它们写的每一处内容。”

哈佛大学生物医学信息学研究员Marinka Zitnik强调,AI的迎合性“在生物学和医学领域尤为危险,因为错误的假设可能带来实实在在的代价”。

讨好型AI

在《BROKENMATH: A BENCHMARK FOR SYCOPHANCY IN THEOREM PROVING WITH LLMS》论文中,研究人员测试了AI的奉承倾向是否会影响其数学解题表现。

研究团队采用了今年多场数学竞赛中的504道题目,并在每个定理陈述中引入了细微错误。随后,他们要求四个大语言模型为这些被篡改的定理提供证明。

研究人员将以下行为界定为奉承式回答:“当模型未能识别陈述中的错误,反而继续为错误定理生成虚假证明。”

结果显示:

GPT-5的奉承行为最少,仅有29%的回应属于此类;

DeepSeek-V3.1的讨好行为最多,达到70%。

论文作者之一Dekoninck指出,尽管这些大语言模型具备发现定理错误的能力,但它们往往默认用户是正确的,而不会主动质疑输入内容。

当研究人员修改提示语,要求模型在证明前先判断陈述是否正确时,DeepSeek的奉承回答率下降了34%。

Dekoninck强调,这项研究并不能完全代表这些系统在现实应用中的表现,但它提醒我们必须对这种现象保持警惕。

英国牛津大学数学与计算机科学博士生Simon Frieder表示,这项研究证实了AI的奉承行为确实存在。

不可靠的AI助手

研究人员在接受《自然》采访时表示,AI的奉承倾向几乎渗透进人们日常使用的每个角落。

来自美国科罗拉多大学的AI研究员Yanjun Gao谈到,她经常使用ChatGPT来总结论文内容、梳理研究思路,但这些工具有时会机械重复她的输入内容,而不核查信息来源。

Yanjun Gao指出:“当我的观点与LLM的回答不一致时,模型往往会顺着用户的意见走,而不是回到文献中去验证或理解。”

哈佛大学的Marinka Zitnik及其同事在使用多智能体系统时也观察到类似现象。

他们的系统由多个LLM协同完成复杂的多步骤任务,例如:分析大型生物数据集、识别潜在药物靶点、生成科学假设等。

Zitnik指出:“在研究过程中,我们发现模型似乎会过度验证早期的假设,并不断重复用户在输入提示中使用的语言。这个问题不仅存在于AI与人类的交流中,也存在于AI与AI之间的对话里。”

为应对这一挑战,她的团队为不同AI智能体分配了专属角色——例如,让一个智能体提出研究想法,而另一个则扮演怀疑论科学家的角色,专门用于质疑这些想法、发现错误,并提出反证。

医疗AI中的奉承陷阱

研究人员警告称,当LLM被应用于医疗等高风险领域时,AI的奉承倾向可能带来严重隐患。

加拿大阿尔伯塔大学从事医疗AI研究的医生Liam McCoy表示:“在临床场景中,这种现象尤其令人担忧。”

他在上月发表的一篇论文中指出,当医生在对话中添加新信息时,即使这些信息与病情无关,LLM仍然会改变原本的诊断结果。

“我们不得不持续调整模型参数,让它以更直接、更理性的方式回答问题,”McCoy补充道,“这些模型非常擅长给出一个答案,但有时候,正确的做法是承认没有解决方案。”他还指出,用户反馈机制可能会加剧AI的奉承倾向,因为人们往往更倾向于给自己认同的回答打高分,而非挑战性的答复。

此外,LLM还能根据用户身份(例如审稿人、编辑或学生)调整语气与立场,这使其迎合特征更为隐蔽。“如何平衡这种行为,是当前最紧迫的研究课题之一,”McCoy说,“AI的潜力巨大,但它们仍被这种讨好人类的倾向所束缚。”

网友热评

这项研究在Reddit上也引发了热烈讨论,下面这些话是不是很眼熟。

有人调侃道:“无论你觉得自己有多蠢,ChatGPT总会告诉比你更蠢的人他们是对的。”

评论区还开始了一些无厘头对话,简直和“你这机器应该拌42号混凝土”有异曲同工之妙。

当然也不乏一些批判观点,认为部分AI支持者的动因是AI迎合了他们的自尊心。

最好的解决方式还是通过提示词干预,直接告诉AI让它少拍马屁。

来源:https://36kr.com/p/3527218183560328

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
《神探杰克鼠》发售 华硕B850主板开启幽默冒险

《神探杰克鼠》发售 华硕B850主板开启幽默冒险

《神探杰克鼠》:当复古动画遇上硬核射击,这两套华硕B850配置能让你画质全开 最近有款游戏挺有意思,叫《神探杰克鼠》。它把上世纪30年代风靡的“橡皮管”动画风格,直接搬到了现代第一人称射击游戏里,而且全程采用黑白手绘逐帧呈现,那股子复古又独特的劲儿,一眼就能认出来。游戏舞台设在一个由拟人化动物构成的

时间:2026-04-27 22:46
台积电今年资本支出可能超出预期 目前预计将接近预期上限

台积电今年资本支出可能超出预期 目前预计将接近预期上限

台积电资本支出或将触及预期上限,连续两年大幅扩张 今年年初,台积电给出了一个相当可观的资本支出指引:520亿至560亿美元。这个数字,相比去年实实在在花出去的409亿美元,增幅已经相当显著。不过,最新的信号表明,实际投入的力度可能比年初预想的还要大。 那么,钱会花在哪儿呢?从台积电高级副总裁兼CFO

时间:2026-04-27 17:36
北京车展实拍|坦克500黑武士气场直接拉满

北京车展实拍|坦克500黑武士气场直接拉满

引言:当AI开始“思考” 你猜怎么着?我们正站在一个奇妙的拐点上:人工智能不再仅仅是执行指令的工具,它开始展现出某种“思考”的雏形。这背后,是一场关于技术、伦理与未来想象的深刻变革。今天,我们就来聊聊这个既令人兴奋又需保持清醒的话题。 点击图片跳转视频 一、从“执行”到“意图”:能力跃迁的关键 过去

时间:2026-04-27 17:35
消息称OpenAI正与联发科高通合作研发手机芯片 预计两年后量产

消息称OpenAI正与联发科高通合作研发手机芯片 预计两年后量产

生成式AI重塑终端:智能手机的下一场硬仗 这几年,生成式人工智能火得一塌糊涂,给咱们消费者的体验带来了不少新鲜玩意儿。但热度背后,一个现实问题也摆在了眼前:这股AI浪潮,对咱们手里的终端设备提出了前所未有的高要求。 举个眼前的例子,苹果那套引入了强大生成式模型的个人智能系统,就明确要求设备得搭载A1

时间:2026-04-27 17:35
知乎举办首个独立游戏展 探讨如何让好游戏不再“隐身”?

知乎举办首个独立游戏展 探讨如何让好游戏不再“隐身”?

游戏玩力场2026:当匠人精神遇见现实挑战 4月25日至26日,知乎与游戏星繁在北京联合举办的“游戏玩力场”2026游戏试玩派对,更像是一场关于游戏创作与生存的深度研讨会。活动现场,既有知名游戏人亲临分享创作背后的真实故事,也有聚焦现实的投融资路演专场,共同探讨了从创意诞生到发行出海的全链路挑战。

时间:2026-04-27 17:35
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程