当前位置: 首页
AI
纽约大学研究团队开发AI想象力基准测试新方法

纽约大学研究团队开发AI想象力基准测试新方法

热心网友 时间:2026-05-14
转载

如何科学评估人工智能是否具备真正的想象力?纽约大学与德州大学奥斯汀分校的研究团队近期在预印本平台arXiv(论文编号:2603.09970v1)上发表了一项突破性研究,推出了名为CREATE的AI创造力评估基准。这项发表于2026年3月的工作,为量化与提升机器的创造性思维能力提供了全新的方法论与测试工具。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

纽约大学团队创造性基准测试:让AI也能

该研究由纽约大学的Manya Wadhwa、Tiasa Singha Roy、Greg Durrett以及德州大学奥斯汀分校的Harvey Lederman和Junyi Jessy Li共同完成。团队致力于解决一个核心问题:如何设计出能有效区分AI是进行真正创造性联想,还是仅重复训练数据模式的客观评测体系?

传统创造力测试的不足与CREATE的创新设计

以往评估创造力的经典方法,如“替代用途测试”或“远距离联想测试”,对当今的大语言模型而言已过于简单,且存在数据泄露风险——AI很可能在训练阶段就已接触过标准答案。这如同让考生参加一场已知题目的考试,无法反映真实能力。

CREATE基准的革新之处在于,它要求AI系统在一个庞大的知识图谱中,自主发现并构建连接两个看似无关概念的创造性路径。这类似于在一个全球社交网络中,为两位毫无交集的公众人物设计出有趣且合理的关联链条。例如,任务可能是“将演员达科塔·约翰逊与科幻奇幻电影演员联系起来”。一种创造性路径可以是:达科塔·约翰逊主演了《物质主义者》,该片男主角克里斯·埃文斯曾出演《美国队长》系列科幻电影。另一种路径则可通过家庭关系:她是安东尼奥·班德拉斯的继女,而班德拉斯曾为《怪物史莱克2》配音,这是一部奇幻动画。

多层次创造性思维能力的考察

研究发现,此类任务需要AI展现多层次的认知能力。首先是在海量知识中进行高效检索与探索,如同在迷宫中寻找出路。其次是评估路径的创造性价值,确保连接既真实可靠又新颖独特。最后还需生成多样化的解决方案,避免答案同质化。

为此,研究团队构建了一个包含931个自然语言查询的基准数据集,覆盖演员、基因、化学物质、运动员等多个领域。每个查询都要求AI提供多条连接起点与终点的独特路径,好比为用户规划数条主题各异、风景独特的旅行路线。

精妙的双维度评估:特异性与多样性

CREATE采用了一套巧妙的评估体系,同时考量“路径特异性”与“答案集多样性”。特异性衡量单条路径的紧密性与独特性,如同评价一条旅行路线的亮点浓度。多样性则确保整体答案的丰富度,防止模型陷入单一思维模式。

团队进一步提出了“创造性效用”这一综合指标,将质量与多样性有机结合,并引入了“用户耐心”参数——模拟真实场景中用户愿意浏览答案的深度。这就像一位优秀的向导,既能推荐经典路线,也能根据游客兴趣层层递进,揭示更多隐藏景观。

主流模型测试结果与反直觉发现

研究对GPT系列、Claude系列、Gemini及多个开源模型进行了系统评估。结果显示,性能最强的模型在创造性效用上确实领先,但即便顶尖模型在面对此类开放域创造任务时仍显吃力。一个反直觉的发现是:具备“思维链”复杂推理能力的模型,并未因其更深的“思考”过程而显著优于标准生成模式,即使分配了更多计算资源。

这一现象颇具启示:如同延长思考时间不一定能让人更有创意,单纯增加AI的计算预算也未必能直接提升其创造性产出。这暗示真正的机器创造力可能需要超越现有架构的新范式。

团队还尝试了多种提示工程策略,如直接指令“请发挥创意”或要求模型输出概率分布,但这些方法带来的提升有限,表明激发AI创造力远非一句简单指令所能解决。

创造性路径的模式分析与核心权衡

通过分析高质量创意路径,研究总结出一些共性模式:最具创造性的连接往往成功桥接了不同知识领域,将看似离散的概念以巧妙且合理的方式关联。例如,将娱乐界人物与学术成就相连,或将体育明星与文化事件结合。这些路径事实正确,却出乎常人意料。

不同模型也展现出迥异的“创作风格”:有些倾向于“广撒网”,生成大量路径但质量不均;有些则更为“谨慎”,产出较少但精度较高。理想的创造性AI应能在发散与收敛之间取得平衡。

研究尤其揭示了“创造性”与“事实准确性”之间存在的内在权衡。追求更高新颖性的模型,有时会在事实细节上出现松动;而严格恪守准确性的模型,其答案往往趋于保守。这指出了发展可信赖的AI创造力所必须解决的核心矛盾:如何在坚守真实性的前提下,充分释放联想潜能。

研究的广泛影响与未来方向

此项工作的意义远超学术范畴。随着AI日益深入科学研究、艺术创作、商业创新及教育等需要创造力的领域,准确评估并增强其创造性能力变得至关重要。CREATE基准为这一进程提供了可量化、可复现的标尺。

更重要的是,它指明了未来AI发展的潜在路径:实现真正的机器创造力,或许不仅需要更大规模的数据与参数,更可能需要借鉴人类心智中直觉、类比与情感融合的复杂机制,设计全新的认知架构。

尽管当前顶尖AI已在CREATE测试中展现出初步的创造性联想能力,但与人类丰富、深邃且充满直觉的创造力相比,仍有巨大差距。这既是挑战,也是机遇。研究团队期望CREATE能激发更多研究者探索让机器真正获得想象与创新能力的路径。

归根结底,这项研究揭示:创造力的本质不在于答案,而在于探索答案的思维过程。当我们在知识网络中训练AI寻找新颖连接时,我们正是在培育其想象力的幼苗。虽然前路漫漫,但AI已开始展现令人惊喜的联想火花。技术的持续演进,或许终将让机器能在看似无关的万物之间,发现那些意想不到却美妙非凡的联系。

Q&A

Q1:CREATE基准测试是什么?

A:CREATE是由纽约大学和德州大学奥斯汀分校联合开发的AI创造力评估基准,专门用于测试AI系统在不同概念间建立新颖、合理连接的能力。它通过要求AI在庞大知识图谱中构建创造性关联路径(例如,找出从某位演员到科幻电影演员的有趣联系),来评估其联想创新能力。该基准有效避免了传统测试中AI可能“记忆答案”的问题,更能真实反映其创造性思维水平。

Q2:为什么现有的创造力测试不适合AI?

A:传统创造力测试(如列举物品非常规用途)对现代大语言模型而言难度过低,且其测试内容很可能已包含在模型的训练数据中,导致测试失效。CREATE基准通过构建基于真实世界知识的、近乎无限可能的关联任务,创造了一个难以通过机械记忆应对的挑战,从而能更准确、更公平地衡量AI的原创性想象力。

Q3:哪些AI模型在CREATE测试中表现最好?

A:评估表明,如GPT-5、Gemini-3-pro等最新的大型语言模型在创造性效用上领先。但一个关键发现是,采用“思维链”等复杂推理机制的模型,其表现并未显著优于标准生成模式。这提示我们,提升AI创造力不能仅依赖增加“思考”深度或计算量,而可能需要从根本上革新其产生新颖想法的底层机制。

来源:https://www.techwalker.com/2026/0323/3181992.shtml

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
博通350亿美元私募融资 算力资本战升级

博通350亿美元私募融资 算力资本战升级

一则重磅融资消息,让全球AI算力竞赛的“资本底色”愈发清晰。据知情人士透露,两大私募资本巨头——阿波罗全球管理公司和黑石集团,正在与芯片设计巨头博通进行谈判,商讨一项规模高达约350亿美元的融资方案。 这笔资金,剑指何方?消息人士指出,博通计划将融资所得用于开发面向人工智能任务的新一代芯片。目前谈判

时间:2026-05-14 15:04
港中文AI导演系统:聊天生成多镜头电影,单GPU打造好莱坞级视频

港中文AI导演系统:聊天生成多镜头电影,单GPU打造好莱坞级视频

这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究,已于2026年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者,可以据此查阅完整论文。 当前的AI视频生成技术,更像是一位只会使用固定机位的摄影师。它能产出精美的单帧画

时间:2026-05-14 15:02
上海人工智能实验室突破三维视觉技术让计算机模拟人眼感知空间

上海人工智能实验室突破三维视觉技术让计算机模拟人眼感知空间

在数字世界的浪潮中,一项来自中国顶尖科研机构的突破性技术,正在重塑机器感知三维空间的方式。由上海人工智能实验室、上海交通大学、复旦大学等联合研发的M?技术,为计算机视觉与三维重建领域开辟了全新的道路,预示着智能感知的未来已来。 试想一个基础问题:当我们用手机拍摄视频时,机器如何像人一样理解画面中的立

时间:2026-05-14 15:02
普林斯顿大学革新立体视觉技术:机器双眼识别更快速精准

普林斯顿大学革新立体视觉技术:机器双眼识别更快速精准

这项由普林斯顿大学计算机科学系团队主导的研究发表于2026年3月,论文编号为arXiv:2603 24836v1。 我们人类用双眼看世界时,大脑能轻松对比左右眼图像的细微差异,瞬间判断出物体的远近。这种立体视觉能力,让我们能精准地拿起水杯、安全地过马路,感受世界的深度。如今,让计算机也拥有这样的“双

时间:2026-05-14 15:02
麻省理工学院如何用物理模拟器提升机器学习效率

麻省理工学院如何用物理模拟器提升机器学习效率

在开始深入解读之前,我们首先需要明确一个核心前提。 您提出的要求是“根据给定的论文地址生成博客文章”,但当前提供的信息中,并未包含具体的论文链接或实质性的学术内容。您仅提供了一个指令框架和一张示意图片。 为了能够生成一篇具备深度、准确且对读者真正有帮助的专业分析文章,我的工作必须建立在可靠的学术文献

时间:2026-05-14 15:01
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程