ProactiveBench：AI助手主动求助机制研究

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

ProactiveBench：AI助手主动求助机制研究

热心网友时间：2026-05-14

转载

这项由意大利特伦托大学联合贝加莫大学、法国格勒诺布尔INRIA研究院以及意大利布鲁诺·凯斯勒基金会共同完成的研究，为计算机视觉领域带来了一个全新的视角。其成果已于2025年3月19日发表在顶级期刊上，论文编号为arXiv:2603.19466v1，可供学界深入查阅。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

特伦托大学提出ProactiveBench：AI助手如何学会主动求助而非胡编乱造？

人类在遇到信息模糊或不足的情况时，会本能地寻求帮助——例如，当视线被遮挡时，我们会请人移开障碍物。然而，当前具备视觉理解和对话能力的多模态大语言模型，在面对信息不完整的图像时，表现却截然不同：它们要么保持沉默，要么倾向于“胡编乱造”。这就像一个固执的学生，宁愿猜测也不愿主动提问。

研究团队正是从这一反差中发现了关键问题：一个真正智能的AI助手，应当具备“主动性”，能够识别自身知识的边界，并在信息不足时主动寻求补充，而不是强行给出可能错误的答案。为了系统地衡量和培养AI的这种能力，他们构建了一套全新的评估体系，命名为ProactiveBench。你可以将其视为一场专为AI设计的“求助能力评估”。

这套“评估”涵盖了七类贴近现实的场景。例如，在物体识别任务中，AI看到的图像中目标物体被完全遮挡，它需要学会提出“请移开遮挡物”的建议，而不是猜测“这是一个篮球”。在视频理解场景中，当关键人物被路人短暂遮挡时，理想的回应应该是“建议稍等片刻”或“回放前一帧画面”。

团队利用这套评估标准测试了22个当前最先进的多模态模型，包括GPT-4、LLaVA、InternVL等知名模型。结果有些出人意料：几乎所有模型都严重缺乏主动求助的意识。更有趣的是，模型参数规模的大小与其“求助意愿”之间并无必然联系——有时，参数较少的小模型反而比大模型更愿意“开口提问”，这类似于班级中更乐于请教老师的中等生。

尝试通过提示词来“引导”AI变得更主动，效果也并不理想。虽然AI提出求助建议的频率有所增加，但回答的整体准确率提升微乎其微。有些模型甚至变得“过度主动”，不断地请求帮助，反而忘记了最初需要解决的核心问题。

转机出现在模型训练阶段。当研究团队采用强化学习方法，并为AI设定一套明确的奖励规则（正确回答问题给予高分，合理提出求助给予中等奖励，胡乱猜测则没有奖励）后，情况发生了显著变化。经过这种训练的AI，不仅在特定场景下的表现大幅提升，甚至能将这种“求助意识”迁移到从未见过的新任务中。这表明，主动性是一种可以通过训练获得的能力。

一、AI的“固执”倾向：普遍存在的“宁猜不问”现象

人类在光线昏暗时想看清物体，第一反应是开灯或走近观察，这被称为“主动感知”。但当前的多模态大模型却普遍表现出一种“固执”倾向：面对模糊或不完整的视觉信息时，它们往往选择冒险猜测，而不是承认自己需要更多信息。

这类场景在现实应用中十分常见。例如，当你给AI展示一张高度模糊的动物照片并询问它是什么时，它可能会信心十足地回答“这是一只狗”，即使那团像素连人类都难以分辨。这好比一个不愿承认视力不佳的学生，在考试时宁愿蒙答案也不举手向老师求助。

ProactiveBench的创新之处，在于首次系统性地为AI的“求助能力”设计了一套考评标准。它就像一个“智能测试平台”，每个任务都模拟了现实世界中那些“信息不足”的关键时刻。

在“物体遮挡”场景中，AI如同在透过毛玻璃看风景。当目标被完全挡住时，理想的反应是建议“移开遮挡物”。但研究发现，大多数模型要么消极回应“我不知道”，要么就直接给出错误答案。

“时间遮挡”场景则像观看一部被剪掉了关键帧的电影。当视频中的人物被路人暂时挡住时，AI需要懂得建议“请稍等”或“回看一下之前的内容”。这种能力对于自动驾驶、安防监控等领域至关重要。

“视角限制”场景好比通过钥匙孔窥视房间。当从一个角度无法看清时，AI应该能想到“换个角度观察”或“旋转物体”。这在工业质检、商品识别等场景中非常实用，但多数AI缺乏这种空间推理和主动建议的能力。

此外，评估体系还包括“图像质量差”（类似调试老旧电视画面）、“草图不完整”（类似“你画我猜”游戏）、“时间信息缺失”（如同观看无字幕的外语片段）以及“视野受限”（如同透过门缝观察）等场景。这些测试共同勾勒出AI在面临信息瓶颈时的真实反应图谱。

二、大规模模型评估：22个主流AI的表现分析

研究团队对22个主流多模态模型进行了一次全面的“主动性评估”，结果揭示了一些反直觉的现象。

在多选择题测试中，模型需要从预设选项中挑选出最合适的回应。即便对于最先进的模型，其平均准确率也仅在17.5%左右，这意味着它们在大多数情况下都无法做出正确选择。

一个有趣的发现是，参数规模并非决定因素。一些小模型的表现甚至超过了大模型，例如InternVL3-1B（10亿参数）在准确率上竟优于InternVL3-8B（80亿参数）。这打破了“模型越大越智能”的简单假设。

在更自由的开放式回答测试中，评估难度增加，结果同样不乐观。多数模型要么给出模糊的“我不知道”，要么提出一些不切实际的建议。少数能提出合理建议的模型，也往往是依靠记忆类似的例子，而非真正理解了“何时该求助”。

对比数据更具说服力：当图像清晰完整时，这些模型的平均识别准确率可达79.8%；但当图像存在问题、需要主动求助才能解决时，准确率骤降至17.5%。这巨大的落差，仿佛一个在阳光下视力正常的人，一到暗处就完全丧失了适应能力。

不同任务类型的难度差异也很明显。在物体完全被遮挡的任务中，AI表现最差（准确率仅8.2%），而在时间信息缺失任务中相对较好。模型的行为模式也分化为几种：有的习惯性回答“我不知道”（消极回避），有的喜欢“乱猜”（盲目自信），只有极少数能在适当时候提出合理的求助建议。

三、提示引导的局限性：为何简单暗示效果不佳

既然AI普遍缺乏主动性，一个直观的想法是：直接通过指令告诉它该怎么做。研究团队尝试了“提示引导”方法——在输入中加入特定的提示词，鼓励AI主动求助。这就像考试前提醒学生：“如果看不清题目，可以举手问老师。”

针对不同场景，他们设计了诸如“移动遮挡物可能会显示后面内容”、“旋转物体可能提供更清晰视角”等提示词。实验表明，提示确实增加了AI提出建议的频率，平均从0.5次增至2.3次。

然而，这种“主动”往往是表面的。虽然建议变多了，但整体任务准确率仅微升8.3%。更糟糕的是，一些AI出现了“过度主动”的症状：它们会不停地提出各种建议，直到触及系统设定的交互步数上限，却始终没有回答原始问题。这就像一个在迷宫里只顾问路却从不记路的人，最终依然找不到出口。

深入分析发现，AI对提示词的反应是机械的。当研究人员用随机、无意义的建议替换有效建议时，一些看似“主动”的模型依然会选择它们。这说明它们并未真正理解“为何需要求助”，只是学会了一种表面的行为模式。此外，提示词的效果因模型而异，有的模型对提示高度敏感，有的则几乎无动于衷。

四、历史记忆的负担：为何经验有时成为阻碍

通常，经验能帮助人类更好地解决问题。但对AI而言，记住过去的对话历史，有时反而会成为一种负担。

当模型能够看到完整的对话历史（包括之前的问题、回答和建议）时，它们的平均准确率反而下降了7%，而主动建议的频率却从0.5次增加到了1.8次。这类似于一个人过度依赖GPS导航，反而削弱了自己判断方向的能力。

问题的根源在于，AI容易被历史对话中的模式“带偏”。如果它在对话早期提出过求助建议，那么在后续交互中，即使情况已经改变，它仍可能机械地重复这一行为。在12.9%的案例中，AI甚至会陷入“求助循环”，不断提出建议却永不给出最终答案。

研究还测试了“示例学习”的效果，即给AI展示一两个正确处理类似问题的例子。这种方法虽然能提高其提出建议的主动性，但也容易导致“刻板模仿”。例如，在看过一个“移动遮挡物成功识别”的例子后，AI在面对所有问题时都倾向于建议“移动遮挡物”，哪怕问题的根源其实是图像模糊或视角不对。

值得注意的是，提供更多示例（比如三个）有时效果反而更差，因为AI需要在多个可能冲突的模式中做出选择，增加了决策的复杂性。这些发现揭示了当前AI处理序列信息的一个根本局限：它们往往将历史对话视为需要重复的模式，而非用以优化当前决策的背景信息。

五、强化学习的突破：AI如何学会恰当地求助

当传统方法效果有限时，研究团队转向了更根本的解决方案：通过强化学习，让AI从零开始学会在“自信回答”与“谨慎求助”之间找到平衡。这个过程，很像用奖励机制训练智能体形成条件反射。

他们设计了一套精妙的奖励规则：正确回答问题奖励最高（+1分），提出有用建议奖励中等（+0.5至1分），而胡乱猜测或无效回应则没有奖励。这套规则鼓励AI在不确定时选择求助，而非冒险给出错误答案。

训练使用了约27,000个样本，涵盖草图识别和相机移动两类任务，以兼顾抽象与具体的视觉挑战。结果令人振奋：以原本表现较差的LLaVA-NeXT-Mistral-7B模型为例，经过训练后，其在需要求助场景下的平均准确率从4.5%大幅跃升至40.4%，提升近9倍。

更可贵的是，这种学到的“求助意识”展现出了良好的泛化能力。即使在训练中从未接触过的时间遮挡或图像质量问题上，模型也能表现出合理的主动行为。这就像学会了骑自行车的人，更容易掌握骑电动车的平衡技巧。

奖励权重的设置是关键。研究发现，如果将求助建议的奖励设得与正确答案一样高，AI会变得过度依赖求助，反而不敢进行独立判断。只有当求助奖励略低于正确答案奖励时，AI才能找到那个微妙的平衡点。

当然，即便经过训练，AI在需要求助场景下的表现（约40%准确率）与面对清晰图像时的表现（约75%准确率）仍有差距。但这第一步的成功足以证明，通过恰当的引导和训练，AI完全能够学会“知之为知之，不知为不知”的智能行为。

六、现实意义与未来展望：从实验室到实际应用

ProactiveBench的价值远不止于学术论文。它指向了一个更可靠、更实用的AI未来发展方向。当前许多AI助手给人一种“无所不知”的错觉，但在信息不足时硬撑作答，可能在医疗、驾驶等关键领域酿成严重后果。

试想，在医疗影像辅助诊断中，一个具备主动性的AI可能会说：“这片区域影像模糊，建议重新扫描以确认。”而非基于不清晰的图像给出一个可能误导的诊断提示。在自动驾驶场景，面对传感器数据不全或模糊时，AI应选择减速或请求人工接管，而非强行决策。

在教育领域，懂得求助的AI辅导系统能更好地引导学生。当遇到超出其知识范围的问题时，它可以坦诚建议：“这个问题很有深度，我们一起来查查资料。”这比给出一个错误解释要有益得多。

这项研究也促使AI开发者转变理念：从一味追求模型的“全能”，转向培养AI的“知识边界意识”。现实世界的问题往往没有标准答案，评估AI如何应对未知，与评估它解决已知问题的能力同等重要。

当然，挑战依然存在。如何在具体应用中平衡AI的主动性与决策效率？如何将“求助”能力从视觉领域扩展到语言理解、逻辑推理等其他维度？强化学习训练所需的巨大计算资源如何优化？以及，如何防止这种能力被恶意利用？这些都是未来需要攻克的问题。

长远来看，具备适度主动性的AI将改变人机交互的模式。未来的AI助手或许不再是被动应答的工具，而是能主动识别信息缺口、寻求澄清、提出建议的协作伙伴。这种交互模式更接近人与人之间的合作，有望带来更自然、高效的用户体验。

说到底，ProactiveBench所倡导的，是对智能本质的更深层理解。真正的智能不仅在于知道什么，更在于知道自己不知道什么。一个懂得在适当时候说“我需要更多信息”的AI，或许比一个假装无所不知的AI，更加可靠，也更为智能。

Q&A

Q1：ProactiveBench是什么？
A：它是由特伦托大学等机构开发的一套评估体系，专门用于测试多模态大语言模型是否具备“主动求助”能力。它通过七种模拟现实障碍的场景（如物体被遮挡、图像模糊等），检验AI是会建议获取更多信息，还是选择沉默或胡乱猜测。

Q2：为什么AI需要学会主动求助？
A：因为当前AI在信息不足时“硬撑作答”的行为，在医疗诊断、自动驾驶等高风险场景中可能带来严重后果。具备主动求助能力的AI能识别自身知识边界，在不确定时寻求补充信息，从而做出更安全、可靠的判断和决策。

Q3：研究发现的AI主动性问题有多严重？
A：测试结果显示，22个先进模型的平均准确率仅17.5%，绝大多数模型无法正确处理需要额外信息的情况。一个反直觉的发现是，模型大小与主动性能力并无必然联系，有时参数更少的小模型表现反而更好。

来源:https://www.techwalker.com/2026/0324/3182148.shtml

上一篇：语言模型为何选择一致性而非真相 Anthropic团队揭示AI推理机制

下一篇：词元中文名正式发布：解读Token命名背后的含义

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

洛克王国星之路位置与前往方法详解

洛克王国龙须小径位置与前往路线详解

洛克王国家园解锁方法详细步骤指南

洛克王国水晶神殿进入方法及问题解决

洛克王国吹笛子动作使用教程

我的世界基岩版自定义NPC制作与召唤指令教程

洛克王国雷电迷踪活动地图位置详解

光与影远征队布料获取与衣物制作材料教程

洛克王国钓鱼馆位置与前往路线详解

像素火影网页版正版免费入口官方在线畅玩地址

小米汽车推出寻天子品牌增程车型将改变家用车市场格局

博德之门3轻语武器获取方法全攻略

梦幻魔法公主游戏金币速刷攻略与赚钱技巧详解

王者荣耀世界东方曜技能连招与出装铭文搭配指南

东吴水军训练营招募指南帅哥美女如何加入江东水师

生存33天宠物搭配指南与选择技巧详解

异环聆谕水晶获取方法与使用技巧详解

全球固态电池融资活跃去年至今五十七笔四十六家企业获投资

英雄联盟愚人节活动更新内容与玩法全解析

携程裁员30%传闻官方回应称系正常人才盘点

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

ProactiveBench：AI助手主动求助机制研究

一、AI的“固执”倾向：普遍存在的“宁猜不问”现象

二、大规模模型评估：22个主流AI的表现分析

三、提示引导的局限性：为何简单暗示效果不佳

四、历史记忆的负担：为何经验有时成为阻碍

五、强化学习的突破：AI如何学会恰当地求助

六、现实意义与未来展望：从实验室到实际应用

Q&A

Epalea人工智能律师系统：多重证据智能分析与处理方法

马萨诸塞大学攻克AI搜索瓶颈智能助手响应提速10%

中国联通AI研究院攻克扩散模型生成难题实现智能图像生成

北京大学首创智能视频助手可记忆人物与动作细节

中国新能源车企如何凭借自研技术与海外市场实现逆势增长

ProactiveBench：AI助手主动求助机制研究

一、AI的“固执”倾向：普遍存在的“宁猜不问”现象

二、大规模模型评估：22个主流AI的表现分析

三、提示引导的局限性：为何简单暗示效果不佳

四、历史记忆的负担：为何经验有时成为阻碍

五、强化学习的突破：AI如何学会恰当地求助

六、现实意义与未来展望：从实验室到实际应用

Q&A

Epalea人工智能律师系统：多重证据智能分析与处理方法

马萨诸塞大学攻克AI搜索瓶颈 智能助手响应提速10%

中国联通AI研究院攻克扩散模型生成难题实现智能图像生成

北京大学首创智能视频助手可记忆人物与动作细节

中国新能源车企如何凭借自研技术与海外市场实现逆势增长

马萨诸塞大学攻克AI搜索瓶颈智能助手响应提速10%