当前位置: 首页
AI
微软研究发现:AI越聊越笨,复杂对话可靠性骤降

微软研究发现:AI越聊越笨,复杂对话可靠性骤降

热心网友 时间:2026-02-22
转载

你是否发现,当我们与AI聊天机器人进行长对话时,它们似乎会变得越来越“笨”?IT之家2月20日消息,如今这种感觉有了科学依据。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

Windows Central今日报道称,微软研究院与赛富时联合发布的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。

微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%

研究人员对包括GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的15款顶尖模型进行了超过20万次模拟对话分析,揭示出一种被称为“迷失会话”的系统性缺陷。

数据显示,这些模型在单次提示任务中的成功率可达90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约65%。

研究指出,模型的“智能”本身并未显著下降——其核心能力仅降低约15%——但“不可靠性”却飙升了112%。也就是说,AI大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。

报告指出,当前大多数模型主要在“单轮”基准测试下进行评估,即一次性接收全部指令的理想实验环境。但现实世界中的人类交流通常是渐进式的,信息在多轮互动中逐步补充。研究发现,一旦任务被“拆分”到多个回合中,即使是最先进的模型,也容易出现系统性失误。

研究人员进一步分析了造成性能下降的行为机制。

首先是“过早生成”:模型往往在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设,模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。

其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了20%至300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。

令人意外的是,即便是配备了额外“思考词元”的新一代推理模型,如OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。研究还发现,将模型温度参数设置为0——这一常用于确保一致性的技巧——对此类对话衰减几乎没有防护作用。

微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%

这一发现对当前AI行业的评估方式提出了质疑。研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。对于依赖AI构建复杂对话流程或智能体的开发者而言,这一结论意味着严峻挑战。

微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%

目前最有效的应对方式反而是减少多轮往返交流,将所有必要数据、约束条件和指令一次性在单个完整提示中提供,以提高输出一致性。

来源:https://tech.ifeng.com/c/8quLSxKgPdX

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
DeepMind之父警示:我开发的AI或威胁人类,却已难以阻止

DeepMind之父警示:我开发的AI或威胁人类,却已难以阻止

新智元报道编辑:KingHZ【新智元导读】从拦截彼得·蒂尔、警告马斯克,到如今公开说「必须有适应能力」,哈萨比斯史诗级转身:AI安全窗口正在永久关闭,他不再幻想制度,而是赌上全部身家——赌影响力,赌

时间:2026-03-30 22:55
DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路

DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路

新智元报道编辑:LRST【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用tok

时间:2026-03-30 22:48
华羿机器人登陆港交所市值破百亿,领跑国内国际市场

华羿机器人登陆港交所市值破百亿,领跑国内国际市场

今日,华沿机器人正式在港交所挂牌上市,开启了其资本市场的新征程。此次上市,华沿机器人发售价定为每股17 00港元,折合人民币约14 99元。开盘时,股价为16 8港元,即人民币14 82元,而收盘价

时间:2026-03-30 22:31
被投科技企业版图观察:美团AI如何链接50+伙伴

被投科技企业版图观察:美团AI如何链接50+伙伴

当所有人盯着大模型时,美团看到了什么?作者|徐珊编辑|郑玄「为了保持企业有 Day1 的活力,你必须快速做出好的决策。这对初创企业来说或许很容易,但对大型组织来说却极具挑战。」2016 年,亚马逊创

时间:2026-03-30 21:07
Meta智能眼镜发售在即:两款新品专为近视用户设计

Meta智能眼镜发售在即:两款新品专为近视用户设计

智东西编译 佳扬编辑 云鹏智东西3月30日消息,据彭博社报道,Meta计划下周推出两款全新Ray-Ban智能眼镜,专为佩戴近视眼镜的人士设计。消息人士透露,新款眼镜为矩形和圆形两种款式,主要通过传统

时间:2026-03-30 21:01
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程