当前位置: 首页
AI
吴恩达:图灵测试已过时,AGI专用评测设计思路

吴恩达:图灵测试已过时,AGI专用评测设计思路

热心网友 时间:2026-01-10
转载

鹳羽 发于凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新的一年,AI领域又有了新气象!知名专家吴恩达最近公布了面向2026年的目标:

他将推出一项全新的图灵测试,并称之为“图灵-AGI测试”。

顾名思义,这项测试正是为评估通用人工智能(AGI)而量身打造的。



回顾过去一年,AGI无疑是技术浪潮中备受瞩目的焦点。吴恩达在其年度总结中也曾表示:

2025年或许将被铭记为人工智能工业时代的开端,由创新驱动模型性能达到新的高度。AI驱动的应用变得不可或缺,顶尖企业的人才争夺激烈,基础设施建设推动社会生产总值的增长。

学术界与工业界频繁提及AGI概念,硅谷的各家公司也纷纷为抢占AGI先机而设定季度目标。

然而,关于AGI的定义至今尚未形成统一标准,现有的基准测试又常常误导公众,使其高估了当前AI的实际水平。

吴恩达注意到了这一趋势,于是新的图灵测试应运而生,旨在填补这一空白。



正如网友所言:

要衡量智能,首先得定义智能。



图灵-AGI测试设想

传统的图灵测试在AGI时代显然已不够用。

它由艾伦·图灵在上世纪五十年代提出,主张通过人机对话来测试机器的智能水平。

在测试过程中,人类评估者需要确定他们是在与人还是与机器交谈。如果机器能够成功骗过评估者,那么就算通过了测试。

但如今的AI显然不再满足于简单的对话交互,而是要构建起对经济有用的系统,因此亟需一个能够衡量AI工作能力的测试。

而这正是图灵-AGI测试的核心:要让AI像人类一样智能,并完成大部分的知识型工作。

测试对象将会是AI系统或专业人士,他们将获得一台可以访问互联网并配备浏览器和Zoom等软件的计算机。



裁判将通过计算机为测试对象设计一个多日的体验任务,比如作为客服,会先被培训一段时间,然后要求执行接听电话的任务,并提供持续的反馈。

只要AI能够像人类一样熟练完成工作任务,就会被认为通过了测试。

该测试将聚焦AGI的经济性和实际产出,更接近普世意义下对AGI的初始定义——可用于工作和生产场景的智能。

它将比基准测试更考验AI的通用能力

现在几乎所有的AI基准测试,如GPQA、AIME、SWE-bench等,都会预先确定一个测试集。这意味着AI团队都会直接针对已发布的测试集来调整他们的模型。

这就导致很多AI模型榜单排名靠前,但在真实物理世界中能力却不足。

去年闹得沸沸扬扬的Llama 4刷榜丑闻就是其中一个典型,明明数据看起来都很不错,但用户真正上手后却傻眼了。



此外,固定测试集只能衡量AI在某一狭窄领域的能力。相比之下,图灵测试可以由评委自由提出任意问题,没有提前限定范围,更能判断系统在通用任务上的表现。

在改进的图灵-AGI测试中,延续了这一设定,裁判可以任意设计体验任务,而受测的AI或人类测试者均不会事先知道任务内容,这将比基准测试更能判断AGI水平。

同时,为了校准社会对AI的期望,吴恩达表示,或许他将举办一场图灵-AGI测试,让所有AI参与其中。

即便最后的结果是所有AI系统均未能达到标准,也能平息长期以来对AGI的过度炒作。

这种降温将为AI领域创造更稳健的环境,让行业重新聚焦于非AGI级别的实际进步,比如开发有实用价值的应用,而不是沉溺于实现AGI的营销噱头。

从长期来说,图灵-AGI测试也会为AI团队设定一个具体的努力目标,而非模糊地实现人类级智能。

倘若真有某一家公司能够通过测试,其成果也必定具备真实价值,图灵-AGI测试将为真正的AGI突破提供可信的判定依据。

所以接下来,只需拭目以待。



来源:https://www.163.com/dy/article/KITO0UAH0511DSSR.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
工业元宇宙杀手锏:制造业如何创新驱动“养龙虾”?

工业元宇宙杀手锏:制造业如何创新驱动“养龙虾”?

智东西作者 云鹏编辑 漠影今年,一方面OpenClaw(龙虾)爆火出圈,各大云厂商、互联网大厂争先接入、适配龙虾。但另一方面,数据隐私安全问题一度冲上热搜,成为全民热议的社会现象。积极来看,“龙虾”

时间:2026-03-31 10:01
深度剖析Qwen3.5-Omni:全模态感知与生成核心能力详解

深度剖析Qwen3.5-Omni:全模态感知与生成核心能力详解

3月30日,千问宣布上线Qwen3 5-Omni。Qwen3 5-Omni系列包含Plus、Flash、Light三种尺寸的Instruct版本,支持256k长上下文,模型支持超过10小时的音频输

时间:2026-03-31 09:55
中国开源OCR项目霸榜GitHub,狂揽7.3万星全球瞩目

中国开源OCR项目霸榜GitHub,狂揽7.3万星全球瞩目

西风 发自 凹非寺量子位 | 公众号 QbitAIGitHub OCR项目之王刚刚历史性易主。诞生近40年、统治OCR领域的技术标杆Tesseract OCR,被中国开源拉下王座——百度文心衍生模型

时间:2026-03-31 09:49
安卓万元机选购指南:突破高价的三大关键策略

安卓万元机选购指南:突破高价的三大关键策略

智东西作者 云鹏编辑 心缘智东西3月30日晚间消息,刚刚,vivo掏出了年度“超大杯”旗舰机vivo X300 Ultra,这场发布会在云南丽江召开,发布会地面直接“长草”。vivo对X300 Ul

时间:2026-03-31 09:43
DeepSeek宕机8小时,我看到的AI行业真相

DeepSeek宕机8小时,我看到的AI行业真相

DeepSeek又上热搜了。这次不是因为发布了什么新模型,而是因为——它崩了。整整8个小时,写论文的学生、玩角色扮演的网友、深夜找AI吐槽的打工人,全部集体失联。社交媒体上哀嚎一片,有人甚至开玩笑说

时间:2026-03-31 09:37
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程