数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI

科学家：多数大语言模型测试标准存缺陷，难以客观评分

科学家：多数大语言模型测试标准存缺陷，难以客观评分

热心网友时间：2025-11-09

转载

11月8日消息，科技媒体The Decoder今日报道称，牛津大学与华盛顿大学等机构联合发布的一项国际研究指出，目前大多数大语言模型的测试标准存在严重的方法论缺陷，这使得人们难以客观衡量人工智能的真实进展。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

研究人员系统梳理了2018至2024年间顶级人工智能学术会议发布的445篇基准测试论文，这些会议涵盖ICML、ICLR、NeurIPS、ACL等权威平台。在邀请29名领域专家进行评审后，发现这些论文均存在至少一个重大方法论漏洞。

研究报告显示，这些基准定义中普遍存在术语模糊或概念争议的问题。虽然78%的基准能够说明测试内容，但其中半数未能清晰定义"推理""对齐""安全性"等核心概念，导致研究结论缺乏可信度。

科学家发现多数大语言模型测试标准存在缺陷，无法客观给出评分

值得注意的是，约61%的基准测试评估了复合型能力，例如"智能体行为"。这类测试通常同时涉及意图理解、结构化输出生成等多个子任务，而这些子任务鲜少被单独评估，导致最终结果难以合理解读。

数据采样方法也是基准测试的另一个薄弱环节。约93%的论文采用便利抽样，12%完全依赖便利抽样，这些样本无法代表真实使用场景。此外，38%的测试复用了现有数据集，许多研究甚至直接使用其他测试集。这种做法可能扭曲大语言模型的实际表现，无法真实反映模型在复杂数学推理方面的能力水平。

此外，超过80%的研究使用"完全匹配率"作为评分标准，但仅16%采用统计校验方法来比较不同模型间的差异，还有13%使用人工评判。大多数测试未能提供不确定性统计或置信区间，严重削弱了结果的可信度。

研究团队也提出了具体改进建议。他们强调后续测试需要明确定义测试目标和边界，确保评估过程不掺杂无关任务，同时需要防范数据污染问题。建议采用严谨的统计与误差分析方法，从定量和定性两个维度着手，让研究结论更加准确可靠。

来源:https://www.ithome.com/0/895/954.htm

上一篇：百度文心大模型5.0预览版发布：文本能力全球第二、国内第一

下一篇： AI引发灾难：代码无审核与数据滥用警示

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

京东直播新动作：刚需复杂指令与自由态数字人如何升级

京东直播新动作：刚需复杂指令与自由态数字人如何升级

编辑｜泽南刚刚落幕的 2026 科技界「春晚」GTC 大会上，一个全行业的共识已经形成：AI 正在进入智能体（Agent）时代。然而，当各大厂商都在疯狂入局智能体时，一个尴尬的现实却摆在面前：这些聪

时间：2026-03-31 14:55

玻色量子完成10亿元B轮融资，刷新行业融资纪录

玻色量子完成10亿元B轮融资，刷新行业融资纪录

2026年3月31日，“十五五”规划专用量子计算机赛道唯一代表企业——北京玻色量子科技有限公司（以下简称“玻色量子”）完成10亿元B轮融资。本轮融资由北京金控、工银资本、朝阳顺禧、招银国际、深投控和

时间：2026-03-31 14:49

GitLab创始人借力AI抗癌：ChatGPT在现实世界中的真实用途

GitLab创始人借力AI抗癌：ChatGPT在现实世界中的真实用途

Sid 这个案例最震撼我的，不是“AI 参与抗癌”这几个字本身。而是它让我第一次很清楚地感觉到：AI 真正的用途，可能从来都不是回答问题。而是进入那些原本只有专家团队才能推进的复杂现实，把前面的认知

时间：2026-03-31 13:10

Claude已会点外卖！揭秘AI批量替代创业公司的未来危机

Claude已会点外卖！揭秘AI批量替代创业公司的未来危机

说句心里话，我确实不太待见 Anthropic（Claude 背后那家公司），但这并不妨碍它依然是目前全球最顶尖、最牛掰的 AI 公司，没有之一。这个世界就是这么现实：能力强弱和是非对错，那是两码事

时间：2026-03-31 13:04

黄仁勋站台的抱抱脸机器人卖爆了，背后公司竟来自中国

黄仁勋站台的抱抱脸机器人卖爆了，背后公司竟来自中国

henry 发自凹非寺量子位 | 公众号 QbitAI还记得Hugging Face去年推出的桌面机器人Reachy Mini吗？在刚发布的时候，量子位曾第一时间报道过这只身高28cm、体重1 5

时间：2026-03-31 12:58

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

夸克浏览器长截图教程：轻松掌握网页截取操作指南

浏览器标签页自动刷新怎么办？3步教你轻松禁止

Yandex官方最新网页版：无需登录立即访问俄罗斯引擎

鱼泡直聘官网登录入口与网页版进入指南

菁优网官方登录入口与智能组卷系统免费使用指南

鱼泡直聘官网登录入口：网页版与官方地址指南

快手官方电脑版入口：网页版在线使用指南

QQ邮箱电脑版登录官网入口：网页版最新访问地址

微软确认部分Win11更新后存在无法关机问题

蒍忧网2026题库免费下载与登录入口

夸克浏览器长截图教程：轻松掌握网页截取操作指南

浏览器标签页自动刷新怎么办？3步教你轻松禁止

Yandex官方最新网页版：无需登录立即访问俄罗斯引擎

鱼泡直聘官网登录入口与网页版进入指南

菁优网官方登录入口与智能组卷系统免费使用指南

鱼泡直聘官网登录入口：网页版与官方地址指南

快手官方电脑版入口：网页版在线使用指南

QQ邮箱电脑版登录官网入口：网页版最新访问地址

微软确认部分Win11更新后存在无法关机问题

蒍忧网2026题库免费下载与登录入口

《人之初》首播：双线叙事成新悬疑样本，口碑褒贬不一

逍遥侯明昊时隔73天再提同样台词，恋爱脑属性揭秘

《人世间》首播：两场葬礼四条人命，张若昀马思纯悬念升级

罚罪2：豆分7.0开启，三线冲突与实力派扎堆引爆续作

新剧上线：全集8集超带感剧情，一次追完太过瘾

《逍遥》首播：赵丽颖3分钟客串引爆热议，观众评价一针见血

张若昀新剧《人之初》4集冲上热榜：悬疑剧的新标杆？

《老舅》大结局：今年最催泪感人的收官之作

2025必追十大国产剧盘点：口碑热播佳作一次收藏

马思纯《人之初》首播三小时热度破2万，演技获赞封神

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

统考商店在哪？乱涂彩世界货币获取与兑换优先级详解

统考商店在哪？乱涂彩世界货币获取与兑换优先级详解发布于 2026-03-31

《原神》深层螺旋打法攻略：5步轻松通关满星深渊

《原神》深层螺旋打法攻略：5步轻松通关满星深渊发布于 2026-03-31

《魔王城物语》最强三人阵容解析：核心角色与实战搭配

《魔王城物语》最强三人阵容解析：核心角色与实战搭配发布于 2026-03-31

星穹铁道佩拉光锥培养攻略：高效养成指南

星穹铁道佩拉光锥培养攻略：高效养成指南发布于 2026-03-31

火柴人联盟2云游戏在线畅玩入口与免费教程

火柴人联盟2云游戏在线畅玩入口与免费教程发布于 2026-03-31

比吉奥头盔读取教程：红色沙漠记忆碎片操作指南

比吉奥头盔读取教程：红色沙漠记忆碎片操作指南发布于 2026-03-31

红色沙漠仓库解锁攻略：营地仓库位置与开启指南

红色沙漠仓库解锁攻略：营地仓库位置与开启指南发布于 2026-03-31

我图网页面版入口及登录使用指南

我图网页面版入口及登录使用指南发布于 2026-03-31

洛克王国火神队首通世界BOSS全攻略

洛克王国火神队首通世界BOSS全攻略发布于 2026-03-31

洛克王国独角兽币3步速刷指南

洛克王国独角兽币3步速刷指南发布于 2026-03-31

心动小镇细木工调味架配置方位全攻略

心动小镇细木工调味架配置方位全攻略发布于 2026-03-31

洛克王国世界玛雅石像鬼打法攻略：5步轻松通关

洛克王国世界玛雅石像鬼打法攻略：5步轻松通关发布于 2026-03-31

菲布洛克野外石台宝箱谜题解法完全指南

菲布洛克野外石台宝箱谜题解法完全指南发布于 2026-03-31

洛克王国饰品指南：高效搭配与世界饰品使用技巧

洛克王国饰品指南：高效搭配与世界饰品使用技巧发布于 2026-03-31

永冬地下宝箱攻略：云之国悼霜地宫谜题解法

永冬地下宝箱攻略：云之国悼霜地宫谜题解法发布于 2026-03-31

洛克王国翼王技能搭配攻略：三大强力组合推荐

洛克王国翼王技能搭配攻略：三大强力组合推荐发布于 2026-03-31

Yandex中文官网入口：直达俄罗斯搜索的网页版链接

Yandex中文官网入口：直达俄罗斯搜索的网页版链接发布于 2026-03-31

查看与设置vivo浏览器证书加密算法：完整图文指南

查看与设置vivo浏览器证书加密算法：完整图文指南发布于 2026-03-31

夸克浏览器长截图教程：轻松掌握网页截取操作指南

夸克浏览器长截图教程：轻松掌握网页截取操作指南发布于 2026-03-31

浏览器标签页自动刷新怎么办？3步教你轻松禁止

浏览器标签页自动刷新怎么办？3步教你轻松禁止发布于 2026-03-31

Yandex官方最新网页版：无需登录立即访问俄罗斯引擎

Yandex官方最新网页版：无需登录立即访问俄罗斯引擎发布于 2026-03-31

鱼泡直聘官网登录入口与网页版进入指南

鱼泡直聘官网登录入口与网页版进入指南发布于 2026-03-31

菁优网官方登录入口与智能组卷系统免费使用指南

菁优网官方登录入口与智能组卷系统免费使用指南发布于 2026-03-31

鱼泡直聘官网登录入口：网页版与官方地址指南

鱼泡直聘官网登录入口：网页版与官方地址指南发布于 2026-03-31

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

鸣人的假期中文版下载-鸣人的假期游戏合集-鸣人的假期版本大全

鸣人的假期中文版下载-鸣人的假期游戏合集-鸣人的假期版本大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载