数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

城大腾讯AI评分官突破背书模式实现深度思考与全面评判

AI热点日报时间：2026-05-13

热点解读

2026年，一项来自香港城市大学、腾讯混元与阿联酋MBZUAI的研究，为AI的评价能力带来了突破。这项发表于3月3日、编号为arXiv:2603 01571v1的工作，核心在于解决一个普遍痛点：如何让AI的评分系统，不再像个只会对照清单打钩的机械考官，而是更像一位懂得灵活评判、能给出深度理由的人类专

2026年，一项来自香港城市大学、腾讯混元与阿联酋MBZUAI的研究，为AI的评价能力带来了突破。这项发表于3月3日、编号为arXiv:2603.01571v1的工作，核心在于解决一个普遍痛点：如何让AI的评分系统，不再像个只会对照清单打钩的机械考官，而是更像一位懂得灵活评判、能给出深度理由的人类专家。

城大与腾讯研究团队：AI评分官不再只会

不妨想象一下学校作文竞赛的评委。优秀的评委不会只给个总分了事，他们会从结构、文采、创意等多个维度综合考量，最终给出有说服力的评判。这正是当前AI奖励模型的短板所在：它们往往表现得像“一刀切”的机器人，面对复杂多样的任务时，要么过分关注表面流畅度而忽略实质内容，要么纠结于技术细节而牺牲整体可读性。

这个问题在现实应用中至关重要。无论是辅助批改作业、审核用户评论，还是筛选简历，我们都希望AI能像人类专家一样，既能全面权衡，又能根据任务性质调整评判重点。评价数学解题过程，逻辑严谨性显然比文采更重要；而评判一篇散文，情感表达和创意或许才是关键。

研究团队从中获得灵感：人类的思考有“快”与“慢”之分，AI的评判是否也能拥有不同的“思维模式”？他们将其形象地归纳为“广度思考”与“深度思考”。前者如同一个全面型评委，会同时从多个角度审视问题，确保不遗漏任何重要维度；后者则像一个专业型审查员，专注于核心问题，层层深入验证每个细节。

基于此，团队开发了名为Mix-GRM的创新框架。它的精妙之处不在于让AI写更长的评语，而在于教会AI根据任务特点，动态调整其思考方式，就像一个经验丰富的教师面对不同作业时会采用不同的批改策略。

一、两种思维模式的奥秘

评判任务有时像医生诊断：有些情况需要全面体检，有些则需要专项检查。

广度思考模式就如同全面体检。当症状不明时，医生需要检查心血管、呼吸、消化等多个系统。在AI评判中，这种模式尤其适合主观性强的任务，比如评价文章整体质量。这类任务没有标准答案，需要同时考量语言、内容、逻辑、创新性等多个方面，如同评委从不同角度打分后再行综合。

深度思考模式则类似专项检查。当医生有了初步判断，便会进行针对性深入检查，一步步验证假设。AI在处理客观性强的任务时，如检查数学解题步骤，就需要这种逐步验证的逻辑，好比数学老师逐行验算学生的推导过程。

有趣的是，实验表明这两种模式不能简单混用。用错误的模式评判，不仅无助于提升准确性，反而会产生误导。用广度思维去审视一道数学题，AI可能被表述是否优雅等次要因素分散注意力，而忽略核心的计算错误；反之，用深度思维去评判创意写作，则可能过分纠结于某个语法细节，错过文章整体的艺术价值。

二、让AI学会“见人下菜碟”

如何让AI自动选择合适的思维模式？研究团队设计了一套巧妙的训练方法，其过程堪比培养一位全能型专业评委。

首先，他们将原本可能杂乱的评判过程结构化，分解为“原则-判断-结论”三个清晰步骤。这好比将散漫的评语规范成一张透明的评分表，让整个思考过程有迹可循。

接着，他们采用了“因材施教”的策略。针对需要全面考量的主观任务，训练AI使用广度思考；针对需要严格验证的客观任务，则训练其深度思考能力。

最关键的一步是引入了“自适应学习”机制。通过强化学习技术，AI系统会根据评判结果的准确性，自行调整思维模式的选择策略。它不是在执行硬性规定，而是在实践中学习，如同一位新手评委通过反复练习，逐渐掌握何时该仔细斟酌、何时该果断裁决。

三、实战效果：从及格生到优等生的转变

一系列测试结果证实了这种新方法的有效性，其提升堪称显著。

在标准化测试中，Mix-GRM系统在五项主要评判能力测试上，平均表现比之前最好的开源模型高出8.2%。这个幅度在AI领域意味着质的飞跃。

更重要的是，这种提升体现了“术业有专攻”。在处理文章质量评价等主观任务时，广度思考模式优势明显；而在检查数学推理、代码逻辑等客观任务时，深度思考模式则表现更佳。

在实际应用场景中，新系统的价值同样突出。例如，在代码质量评估中，它能准确识别出43.2%的逻辑错误，优于同类系统的37.7%；在数学推理验证任务中，准确率达到60.2%，远超传统方法的39.6%。

尤为可贵的是，面对既需全面考量又需深入分析的复杂任务时，系统展现出了“智能切换”的能力，能在两种模式间找到最佳平衡点。

四、意外发现：AI的自主进化

研究过程中间出现了一个意料之外的收获：经过强化学习训练后，AI系统自动演化出了“智能分工”能力。

在基础训练阶段，AI按设计执行任务，准确率约为73%。然而，经过强化学习优化后，准确率飙升至95%。这意味着AI几乎完全掌握了“什么任务该用什么方法”的技能。

神奇之处在于，这一提升完全是AI自主学习的结果。强化学习阶段，研究人员只设定了“评判准确则奖励”的规则，并未明确指导模式选择。AI通过试错，自己发现了任务类型与思维模式之间的最佳匹配关系。

这就像一个聪明的学徒，师傅只要求“把活干好”，他却通过实践自己摸索出了何时该精细、何时该粗放，最终青出于蓝。分析显示，训练后的系统在面对主观任务时会自动增加评判维度，确保覆盖面；面对客观任务时则会自动加深单个维度的分析，确保验证严格。这种行为完全符合人类专家的习惯，却是AI通过纯数据驱动的方式学会的。

五、深入剖析：效果更好的原因

为什么新方法更有效？对比分析揭示了一些关键机制。

传统AI评判系统如同只会照章办事的机器人，无论面对何种任务都套用固定流程。这种“一刀切”在面对多样化任务时就会出现适应性问题，比如用评判数学题的严格逻辑去分析诗歌，可能会过分关注格律而完全忽略意境。

Mix-GRM系统则像一个经验丰富的多面手，其灵活性核心在于“任务-方法匹配”机制。系统学会了在不同情况下侧重不同的模式。

实验揭示了一个重要规律：当任务答案相对确定（如数学计算），深度思考的逐步验证更有效；当任务答案相对开放（如创意评价），广度思考的多维度考量更胜一筹。这验证了研究最初的假设。

此外，新系统还带来了“计算效率”的额外收益。虽然两种思维模式看似需要更多资源，但由于目标明确、过程高效，总体计算成本并未显著增加，如同有经验的工人因方法得当反而提升了总效率。

六、实用价值：从实验室走向现实

这项研究的价值远不止于学术指标的提升，其在实际应用中的潜力更为可观。

在教育领域，新系统可以扮演既严格又包容的教师角色：批改数学作业时使用深度思考，仔细检查每一步；评价作文时则切换到广度思考，从语言、创意、结构等多角度给出综合评语。

在内容审核领域，它能应对更复杂的需求：审核技术文档时重点核查准确性与逻辑；审核创意内容时则更多关注丰富性与表达效果。

在商业决策支持方面，它同样展现出优势：评估技术方案时深入分析细节与风险；评估创新产品时则从用户需求、竞争环境、商业模式等多维度进行综合研判。

在“最佳答案选择”这类任务（类似搜索引擎排序）中，新方法的准确率比传统方法提高了10%以上，这意味着用户体验可能获得显著改善。

七、技术创新：以实用为导向的突破

从技术角度看，这项研究的创新是多方面的，且均以实用性为指向。

最核心的是“模块化思维架构”设计。它将复杂评判过程分解为可重组的基础模块，使AI能根据需求灵活组装思维流程，而非受困于固定框架。

另一重要创新是“任务感知学习”机制。传统训练像培养只会背答案的学生，而新方法则培养能理解题目类型并调整策略的优秀学生。系统不仅学会给出答案，更学会了选择正确的思考方式。

在数据处理上，团队开发了“智能数据合成”方法，通过重新组织和改造现有数据，创造出更高质量的训练样本，如同厨师通过巧妙搭配让普通食材发挥更大价值。

在训练效率方面，新方法也表现优异。系统虽更复杂，但因目标明确、方法合理，训练时间和资源消耗并未大幅增加，保证了实际部署的可行性。

八、未来展望：更智能的评判时代

这项研究不仅解决了当前问题，也为未来指明了方向。

团队也坦诚指出了当前局限。系统虽能较好处理主、客观两大类任务，但现实世界的任务往往更加复杂多元，可能需要更细致的分类和更灵活的处理。当前的系统掌握了“大刀阔斧”和“精雕细琢”两种功夫，面对需要“刚柔并济”的复杂情况时，仍有改进空间。

另一个挑战在于处理那些既需全面考量又需深入分析的混合型任务。系统目前能在模式间切换，但在需要同时运用两种模式的复杂情境下，还需更精细的协调机制。

从长远看，这项研究为AI系统的“认知灵活性”开辟了新路。未来的AI或许不仅能切换思维模式，还能根据任务复杂度动态调整思考深度，甚至模拟人类专家面对新问题时的探索性思维。

这种“因地制宜”的思维切换机制，其应用也可能超越评判任务，拓展至个性化推荐、智能客服、自动驾驶决策等其他需要灵活决策的领域。

归根结底，这项研究最大的意义在于让我们看到了AI从“机械执行者”向“智能决策者”转变的真实可能。当AI能够像人类专家一样根据具体情况调整工作方式时，我们才真正迈向了一个更智能、更实用、也更值得信赖的人工智能时代。对于普通人而言，这意味着我们将越来越多地接触到这样的智能系统：它们不仅能给出答案，还能以合适的方式给出；不仅高效，其工作过程也更能被理解。这样的AI，才是我们真正期待的伙伴。

Q&A

Q1：Mix-GRM的两种思维模式具体是什么？

A：Mix-GRM具备两种思维模式：广度思考和深度思考。广度思考如同全面体检，从多角度同时分析，适合处理文章评价等主观性强的任务；深度思考如同专项检查，逐步深入验证细节，适合处理数学推理检查等客观性强的任务。

Q2：Mix-GRM比传统AI评判系统好在哪里？

A：传统系统像只会照章办事的机器人，对所有任务使用同一套方法。Mix-GRM则像经验丰富的专家，能根据任务特点自动选择合适的评判方式。其在标准测试中平均表现优于之前最好的开源模型8.2%，在数学推理等具体任务上提升更为明显。

Q3：普通人什么时候能用上这种技术？

A：该技术已在学术界得到有效验证，研究团队也已公开相关代码与数据。预计其将很快被集成到各类AI应用中，例如智能教育评估、内容审核、文档检查等工具。这意味着在日常使用AI服务时，我们将有机会获得更准确、更智能的反馈与辅助。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：城大腾讯AI评分官突破背书模式实现深度思考与全面评判要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.techwalker.com/2026/0304/3180224.shtml

深度思考

上一篇：港科大研发AI数据筛选新方法机器学习训练效率提升一倍

下一篇：浙江大学研究揭示大语言模型可控性人类能多精确操控AI

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。