Agent时代好答案评分标准综述
随着大模型转向复杂开放任务,传统单一指标难以评估输出质量。Rubrics将“好答案”拆解为事实正确性、覆盖度、证据支撑等多维度可评判项,提供可解释的质量标准,用于训练与评测,成为连接人类期望与模型行为的重要接口。

最初,大模型的任务其实相当单纯,无非是回答提问、编写代码、求解数学题。那时评估模型质量也比较直接——有标准答案就比对答案,代码通过测试用例跑一遍,数学题看最终结果是否正确即可。准确率、执行成功率这些指标,既能直接用作训练信号,也能用于评测场景。
但近两年来,情况发生了根本性变化。大模型开始承担更复杂、更开放且风险更高的任务——比如自动搜索资料撰写研究报告,在医疗、法律、金融等专业领域给出分析意见,或者一边调用工具一边完成多步骤操作。随之而来的问题是:我们究竟应该如何衡量模型输出的质量?
在许多真实应用场景中,既没有标准答案,也没有明确的信号可以验证模型输出的正确性。比如评估一份Deep Research报告,传统做法可能是将生成报告与参考报告进行文本比对,或者让大模型打一个总体分数了事。但问题在于,一份好报告未必非要与参考报告写得一模一样;用一个笼统的分数来概括报告的好坏,更是几乎不可能。它好不好,必须从多个维度来评判——是否回答了用户的核心问题?是否覆盖了关键信息?引用的证据是否可靠?论证是否清晰?结论是否具备实际价值?
这正是Rubrics发挥作用的地方。它把那些模糊的“好报告”标准,拆解成一个个明确可评价的项。评审者——无论是人还是评判模型——都可以逐项检查、逐项打分。这样一来,不仅能判断报告的整体质量,还能精准指出问题所在:是覆盖不足,还是证据不充分,或者逻辑链条不顺。这些细粒度的反馈,反过来又能变成训练信号,帮助模型有针对性地优化。
换个角度看,大模型的训练与评测,正从过去那种“只关心对不对”的单一信号,转向多维度、可解释的质量标准。Rubrics,正在成为连接人类期望、任务要求和模型行为之间的重要接口。
最近,中国人民大学高瓴人工智能学院的研究团队发布了一篇综述论文——《The Rules of the Game: A Survey of Rubrics for Large Language Models》。论文正文共40页,系统梳理了Rubrics在大模型中的定义、构建方法、训练应用、评测场景以及当前面临的开放挑战。论文还维护了一个持续更新的GitHub项目,方便社区跟踪这一快速发展方向。

论文标题:The Rules of the Game: A Survey of Rubrics for Large Language Models
论文链接1:https://8421bcd.github.io/_pages/Rubrics_Survey.pdf
论文链接2:http://playbigdata.ruc.edu.cn/dou/publication/Rubrics_Survey.pdf
GitHub 阅读列表:https://github.com/RUC-NLPIR/Rubrics_Survey
为什么现在需要 Rubrics?
早期的大模型任务,输入输出形式相对清晰,答案正确性也容易评估。问答任务直接比对标准答案,代码任务跑测试用例,数学任务验证最终结果即可。这些任务使用准确率、执行成功率或者规则化的奖励,确实能直接提供训练和评测信号。
但随着模型能力的扩展,任务难度也随之显著提升。如今大模型被要求完成更开放、更高风险、更复杂的任务,比如自动搜索资料生成研究报告,在医疗、法律、金融等专业领域给出分析,调用外部工具完成多步操作,甚至在多模态场景中生成或理解复杂内容。此时,输出质量不再由单一答案决定,而是由多个维度共同决定。
因此Rubrics的价值正体现在这里——它把“好答案”拆解成一组明确的评价项:事实正确性、覆盖度、证据支撑、推理严谨性、安全性、格式合规性、实际可用性,一个都不能少。评测者可以逐项打分,也可将这些分数聚合后得到最终结果。相比那个黑箱式的笼统分数,Rubrics提供的是可检查、可调整、可诊断的质量标准。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Agent时代好答案评分标准综述要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点泰安市出台《关于支持人工智能OPC发展的实施意见》,围绕空间、算力、服务、场景、金融五大维度推出13项举措,建设OPC社区,构建全链赋能体系,试点先行,培育“超级个体”创业主体,为高质量发展注入新动能。
灵珠AI语音功能需依次通过五道关卡:检查麦克风权限与硬件状态,切换至支持端到端语音的对话模型,用结构化指令锚定任务类型,开启复述纠错训练闭环,并在AR眼镜上实现视觉焦点与语音绑定。
利用Copilot分析遗留代码时,通过结构化提示词要求从数据流、控制流、业务意图三个方向解释。适用于聊天框、Word PowerPoint Loop和Teams场景。提示词需用“方向一”“方向二”“方向三”或数字序号明确分隔,代码建议80行以内,以获取清晰的多视角拆解。
英伟达即将进军PC领域,首款搭载其芯片的Windows电脑下周亮相。黄仁勋将在COMPUTEX2026发表演讲,介绍新一代Rubin机架。此外,三星与OpenAI定制AI芯片谈判暂停,车载PM2 5传感器采用光散射法原理,台积电、亚马逊等为长期AI投资核心标的。
- 日榜
- 周榜
- 月榜
热点快看
