北京大学突破AI训练瓶颈：机器人对话学习价值信息新方法

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

北京大学突破AI训练瓶颈：机器人对话学习价值信息新方法

热心网友时间：2026-05-14

转载

这项由北京大学、DeepWisdom、香港科技大学（广州）及蒙特利尔大学共同主导的前沿研究，已于2026年3月3日在知名预印本平台arXiv上发布，论文编号为arXiv:2603.00656v1。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

北京大学等机构突破AI助手训练瓶颈：让机器人像人一样从对话中学习价值信息

想象一个日常场景：当朋友请你帮忙“订一张下周的机票”时，你会如何回应？你大概率会自然地追问：“具体是哪一天？目的地是哪里？预算大概多少？”通过几轮高效的问答，你就能准确完成任务。这种人类习以为常的、基于信息澄清的交互逻辑，对于当前的人工智能助手而言，却是一个显著的挑战。

目前，大多数AI助手在处理此类模糊或开放式请求时，表现往往难以令人满意。它们要么会提出一系列无关紧要的问题，导致用户体验繁琐；要么会直接进行猜测，结果可能与用户真实意图相去甚远。其根本原因在于，传统的训练范式难以赋予AI一个核心的认知能力：如何在多轮对话中智能地判断何时需要深入追问、何时可以采取行动，以及如何从用户的碎片化表达中精准提取出关键信息。

传统方法的瓶颈：只知结果，不问过程

研究团队精准地指出，问题的症结在于传统的强化学习训练模式。这种方法类似于一位只在考试结束后给出总分的老师，仅依据任务的最终完成情况来评价AI整个对话流程的优劣。这就好比教导孩子下棋时，只在棋局终了时告知胜负，却从不分析某一步棋的策略价值。因此，AI助手无法理解对话过程中每一个独立回合所蕴含的信息价值，导致其学习效率低下，难以优化交互策略。

InfoPO：像侦探一样评估信息价值

针对这一核心难题，研究团队创新性地提出了一种全新的训练框架——信息驱动策略优化（InfoPO）。其核心理念非常直观：教会AI助手像一位经验丰富的侦探那样，主动识别并高度重视那些能够获取关键信息的提问行为。

我们可以将其类比为一个高效的猜谜游戏。一位聪明的玩家会优先询问“它是生物吗？”来大幅缩小猜测范围，而不是询问“它是红色的吗？”。InfoPO的智慧之处在于，它通过量化每个用户回答对AI后续决策计划的影响程度，来反向评估先前那个提问的价值高低。

具体而言，该框架采用了一种“反事实对比”机制。每当AI接收到用户的回复后，系统便会进行一个思想实验：如果将当前这个真实的回复，替换成一个完全不包含任何信息的空白回答，那么AI下一步的行动计划会产生多大的偏差？如果计划改变巨大，则证明刚刚结束的问答回合包含了高价值信息，相应的提问行为应当获得高额奖励；反之，如果计划几乎不受影响，则说明那个问题并未触及核心。

解决信用分配难题，引入智能平衡器

这种方法巧妙地攻克了强化学习领域经典的“信用分配”难题。在旧有模式下，即使AI在对话前期提出了关键问题，只要最终任务执行出现微小瑕疵，整个对话链都可能被判定为失败，前期的优秀表现被完全抹杀。InfoPO则能对对话流程中的每一步进行更精细、更公平的评估。

此外，研究团队还引入了一个“自适应门控机制”。它如同一个智能平衡器，能够动态调整训练过程中对“信息获取”与“任务执行”这两大目标的侧重比例。例如，在训练初期，当AI助手普遍表现不佳、任务结果难以有效区分时，系统会更多地奖励高质量的提问，鼓励AI进行探索以收集信息。而当AI能力逐渐成熟后，平衡器则会更多地关注最终的任务完成效果，防止AI陷入“为了提问而提问”的低效循环，确保其始终围绕核心目标进行交互。