微软研究发现:AI越聊越笨,复杂对话可靠性骤降
你是否发现,当我们与AI聊天机器人进行长对话时,它们似乎会变得越来越“笨”?IT之家2月20日消息,如今这种感觉有了科学依据。
Windows Central今日报道称,微软研究院与赛富时联合发布的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。

研究人员对包括GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的15款顶尖模型进行了超过20万次模拟对话分析,揭示出一种被称为“迷失会话”的系统性缺陷。
数据显示,这些模型在单次提示任务中的成功率可达90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约65%。
研究指出,模型的“智能”本身并未显著下降——其核心能力仅降低约15%——但“不可靠性”却飙升了112%。也就是说,AI大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。
报告指出,当前大多数模型主要在“单轮”基准测试下进行评估,即一次性接收全部指令的理想实验环境。但现实世界中的人类交流通常是渐进式的,信息在多轮互动中逐步补充。研究发现,一旦任务被“拆分”到多个回合中,即使是最先进的模型,也容易出现系统性失误。
研究人员进一步分析了造成性能下降的行为机制。
首先是“过早生成”:模型往往在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设,模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。
其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了20%至300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。
令人意外的是,即便是配备了额外“思考词元”的新一代推理模型,如OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。研究还发现,将模型温度参数设置为0——这一常用于确保一致性的技巧——对此类对话衰减几乎没有防护作用。

这一发现对当前AI行业的评估方式提出了质疑。研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。对于依赖AI构建复杂对话流程或智能体的开发者而言,这一结论意味着严峻挑战。

目前最有效的应对方式反而是减少多轮往返交流,将所有必要数据、约束条件和指令一次性在单个完整提示中提供,以提高输出一致性。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
微软AI新任CEO Mustafa Suleyman:DeepMind联创引领未来
DeepMind与Inflection联合创始人MustafaSuleyman加入微软,领导新成立的MicrosoftAI部门,其同事KarénSimonyan也将一同加入。Inflection作为明星AI初创公司,此前获微软领投,核心团队被整体挖走凸显了AI顶尖人才争夺的白热化。Mustafa职业生涯经历丰富,曾共同创立DeepMind并引发行业关注,其管
2026全球开发者先锋大会上海开幕倒计时5天
2024全球开发者先锋大会3月23日至24日在上海举行,主题为“模速空间”。大会涵盖前沿技术讲坛、互动体验及人才活动,汇聚国内外顶尖社区与投资机构,发布众多技术岗位。现场设沉浸式科技体验区,举办多场工作坊与竞赛,旨在促进开源协作与技术融合,为开发者提供交流与机遇平台。
专访方昱春教授:数据驱动的手语识别研究如何突破数据瓶颈
上海大学方昱春教授团队专注于数据驱动的手语识别研究,结合计算机视觉与深度学习技术,在多模态数据采集、孤立词与连续手语识别等方向展开工作,并探索与自然语言处理的融合。研究旨在为聋人群体提供应急、医疗等场景的数字支持,同时关注手语在认知机制研究中的价值。团队通。
对话孙宇教授解析大语言模型在机器人任务规划中的应用
大语言模型为机器人任务规划提供了新工具。研究将其创造性与知识网络的可靠性结合,通过生成多任务树、合并筛选,形成高效准确规划,能将高级指令转换为可执行动作,甚至融合步骤创新流程。两者优势互补,在开放创新的同时确保正确性,具备良好泛化能力。未来需关注自主纠错与环境。
国产3D视觉技术如何革新新能源汽车产业
国产3D视觉企业正迎来切入汽车制造领域的机遇。过去行业保守依赖外资,如今随新能源汽车产业崛起及国产技术成熟,凭借性价比与本土化服务优势,国产设备开始进入主流供应链。当前竞争加剧,企业需在细分领域错位发展。长远看,智能化需求广阔,但国产替代的核心仍是提升技术硬实力。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

