当前位置: 首页
业界动态
马斯克Grok 4.1发布:AI榜单大洗牌,盲测排名登顶

马斯克Grok 4.1发布:AI榜单大洗牌,盲测排名登顶

热心网友 时间:2025-12-02
转载

就在OpenAI正式推出GPT-5.1、业界热议“情商”表现之际,埃隆·马斯克(Elon Musk)也带着他的xAI公司,迅速加入了这场围绕“AI交互体验”的激烈竞争。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

\

最新消息显示,xAI正式发布了Grok 4.1,这是对现有Grok 4模型的一次重大升级,目前已在grok.com、X平台以及iOS和Android应用中面向所有用户全面开放。据官方介绍,新版模型在创意表达、情感互动与协同交流方面表现尤为出色,其产生幻觉的概率仅为前代模型的三分之一。

更引人瞩目的是,在一个公开的“盲测”竞技平台(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜首位。更令人惊讶的是,即便是其“非推理”的快速模式,也成功击败了其他所有模型的“完整推理”模式。

这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛增添了更多火药味。

那么,Grok 4.1究竟带来了哪些升级?

xAI本次推出了两个Grok 4.1模型版本:Grok 4.1(非推理模式)和Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制会更少。

xAI表示,新版模型能够更细腻地理解隐含意图,与之对话引人入胜,同时也更好地保持了人设的一致性。

为了优化模型的风格调性、人格特质与实用价值,xAI采用了前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代优化模型的回答质量。

在11月1日至14日的“静默上线”期间,xAI在真实流量中进行了盲测式的成对比较评估。结果显示,在64.78%的情况下,用户表现出对Grok 4.1的明显偏好。

\

在“盲测”中力压群雄的Grok 4.1,到底有多强?

Grok 4.1在盲测环境下的人类偏好评估中,树立了新的行业标杆。

LMArena作为一个开源工具,用户可以通过并行、盲测的方式,比较不同大语言模型的实际表现。在这个竞争最为激烈的“斗兽场”里,Grok 4.1取得了令人瞩目的成绩:

· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型达31分之多。

· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),即可即时生成回答,并以1465 Elo的成绩排名第二。

· 更夸张的是,Grok 4.1的“非推理”模式表现,甚至超越了其他所有模型在“完整推理模式”下的公开排行榜成绩。

\

与之相比,Grok 4此前在该榜单上的综合排名仅为第33位。

“情商”与“文采”,一个都不能少

除了通用能力的提升,xAI还强调新版模型在“软实力”方面的显著进步。

· 情绪智能(Emotional Intelligence)为评估模型在个性与人际互动方面的表现,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能等方面的表现。

\

· 创意写作能力(Creative Writing)xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。

\

更少的“幻觉”

快速响应模型在配备搜索工具后,虽能迅速给出答案,但也更容易出现事实性错误。

在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中出现事实性“幻觉”的概率。

根据xAI的说法,Grok 4.1出现幻觉的概率仅为此前模型的三分之一,这使其成为xAI迄今为止表现最佳的版本之一。

\

为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道人物传记相关问题的公开基准测试。

挑战与未来:真正的对手还在路上

尽管Grok 4.1的“盲测”成绩斐然,但AI领域的王者之争远未结束。

目前,我们尚不清楚它与GPT-5.1相比的真实表现。

更重要的是,谷歌(Google)正在筹备发布Gemini 3.0,这很可能会成为迄今为止最强大的模型。

Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)

来源:https://www.163.com/tech/article/KEKPSTL700097U7T.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
于东来回应退休:表面退休,实际仍在工作一线

于东来回应退休:表面退休,实际仍在工作一线

3月31日消息,近日,胖东来创始人于东来在回应“退休计划”时笑称,自己只是表面退休,实际“还是不退的”。他坦言,所谓退休是让年轻人担当主力,自己在后方做好支持,同时学习沉淀,为团队提供精神指引。 于

时间:2026-03-31 09:06
一人公司的真相:周鸿祎谈与想象的不同

一人公司的真相:周鸿祎谈与想象的不同

3月31日消息,最近OPC一人公司这个词突然走红,有人认为它是AI时代的下一个风口,也有人预测未来很多公司都会变成只有一个人的形态。但在周鸿祎看来,大家或许把OPC想得太过简单了。很多人一听到OPC

时间:2026-03-31 09:00
90岁老人骑行30年治愈丧亲之痛,亲身印证运动疗愈力量

90岁老人骑行30年治愈丧亲之痛,亲身印证运动疗愈力量

3月30日消息,据媒体报道,近日,福建莆田一位女士偶遇了一名90岁的爷爷,他骑着自己的三轮车周游全国。据了解,爷爷的儿子在30岁时一家出车祸,儿子儿媳孙子都去世了,老伴悲伤过度哭瞎了双眼,并在事发次

时间:2026-03-30 22:48
xAI创始团队宣告结束,最后一位联合创始人已离职

xAI创始团队宣告结束,最后一位联合创始人已离职

与SpaceX合并的人工智能初创公司xAI,近期正迎来人事的巨大变动。最新消息称,xAI创始团队中的最后一名联合创始人Ross Nordeen已在上周五离职。此前,领导xAI预训练团队的联合创始人M

时间:2026-03-30 22:18
牛奶市场现涨价潮:多品牌为何集中促销?

牛奶市场现涨价潮:多品牌为何集中促销?

3月30日消息,据媒体报道,在北京部分社区超市,特仑苏、伊利金典等常温牛奶正开展39 9元的促销活动。而在日常情况下,这些高端奶产品的零售价格通常维持在49 9元左右。一位资深牛奶经销商透露,正常情

时间:2026-03-30 22:12
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程