马斯克Grok 4.1发布:AI榜单大洗牌,盲测排名登顶
就在OpenAI正式推出GPT-5.1、业界热议“情商”表现之际,埃隆·马斯克(Elon Musk)也带着他的xAI公司,迅速加入了这场围绕“AI交互体验”的激烈竞争。

最新消息显示,xAI正式发布了Grok 4.1,这是对现有Grok 4模型的一次重大升级,目前已在grok.com、X平台以及iOS和Android应用中面向所有用户全面开放。据官方介绍,新版模型在创意表达、情感互动与协同交流方面表现尤为出色,其产生幻觉的概率仅为前代模型的三分之一。
更引人瞩目的是,在一个公开的“盲测”竞技平台(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜首位。更令人惊讶的是,即便是其“非推理”的快速模式,也成功击败了其他所有模型的“完整推理”模式。
这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛增添了更多火药味。
那么,Grok 4.1究竟带来了哪些升级?
xAI本次推出了两个Grok 4.1模型版本:Grok 4.1(非推理模式)和Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制会更少。
xAI表示,新版模型能够更细腻地理解隐含意图,与之对话引人入胜,同时也更好地保持了人设的一致性。
为了优化模型的风格调性、人格特质与实用价值,xAI采用了前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代优化模型的回答质量。
在11月1日至14日的“静默上线”期间,xAI在真实流量中进行了盲测式的成对比较评估。结果显示,在64.78%的情况下,用户表现出对Grok 4.1的明显偏好。

在“盲测”中力压群雄的Grok 4.1,到底有多强?
Grok 4.1在盲测环境下的人类偏好评估中,树立了新的行业标杆。
LMArena作为一个开源工具,用户可以通过并行、盲测的方式,比较不同大语言模型的实际表现。在这个竞争最为激烈的“斗兽场”里,Grok 4.1取得了令人瞩目的成绩:
· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型达31分之多。
· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),即可即时生成回答,并以1465 Elo的成绩排名第二。
· 更夸张的是,Grok 4.1的“非推理”模式表现,甚至超越了其他所有模型在“完整推理模式”下的公开排行榜成绩。

与之相比,Grok 4此前在该榜单上的综合排名仅为第33位。
“情商”与“文采”,一个都不能少
除了通用能力的提升,xAI还强调新版模型在“软实力”方面的显著进步。
· 情绪智能(Emotional Intelligence)为评估模型在个性与人际互动方面的表现,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能等方面的表现。

· 创意写作能力(Creative Writing)xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。

更少的“幻觉”
快速响应模型在配备搜索工具后,虽能迅速给出答案,但也更容易出现事实性错误。
在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中出现事实性“幻觉”的概率。
根据xAI的说法,Grok 4.1出现幻觉的概率仅为此前模型的三分之一,这使其成为xAI迄今为止表现最佳的版本之一。

为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道人物传记相关问题的公开基准测试。
挑战与未来:真正的对手还在路上
尽管Grok 4.1的“盲测”成绩斐然,但AI领域的王者之争远未结束。
目前,我们尚不清楚它与GPT-5.1相比的真实表现。
更重要的是,谷歌(Google)正在筹备发布Gemini 3.0,这很可能会成为迄今为止最强大的模型。
Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
小鹏GX发布首日门店火爆 工作日客流创26年新高
小鹏GX发布后首个工作日,全国门店客流量创26年来新高,试驾预约量超越此前明星车型首周末峰值。新车起售价进入30万元区间,设计极具未来感。全系标配800V高压平台与5C超快充,纯电版续航达750公里;增程版综合续航1585公里。智能驾驶搭载第二代VLA架构,座舱配备侧端视觉语言大模型,交互体验显著提升。
安克AI降噪耳机获吉尼斯认证 搭载Thus芯片通话清晰
安克创新发布两款新品:搭载存算一体AI音频芯片Thus™A1的消噪耳机,获吉尼斯“全球通话最清晰无线蓝牙耳机”认证,算力提升约150倍,能精准提取人声,提升嘈杂环境通话质量,并支持AI记事、翻译等功能;同时推出消费级立体纹理打印机eufyMakeE1,降低创意制造门槛。
中国电动车欧洲销量突破15% 关税难阻市场增长创历史新高
上个月,中国品牌在欧洲电动车市场份额首次突破15%,创历史新高。以比亚迪、奇瑞为代表的中国车企在欧洲销量同比翻倍,显示中国汽车出海竞争力稳步提升。2025年全球电动车销量预计突破2000万辆,其中近四分之三产自中国,中国在全球电动车供应链中占据主导地位。庞大产能支撑出口激增,海外
大疆Pocket 4P双摄口袋相机开箱图赏
大疆正式官宣双摄口袋相机Pocket4P,搭载一英寸主摄与3倍光学长焦镜头,焦段覆盖完整。其保留三轴机械云台保障防抖,旨在满足进阶用户对画质、多场景适应及创作自由度的更高需求。
爱普生如何用省小精技术破解时代困境实现可持续发展
面对资源紧张等时代挑战,爱普生提出“省、小、精”发展理念,旨在以更少资源创造更高价值。其依托精密技术,在工业自动化、数字印刷及教育等领域提供解决方案,提升效率并减少环境负担。该理念支撑着企业实现可再生电力使用与碳中和的长期愿景,推动可持续发展。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

